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看 看 以 下 事项 有 何 共同 点 : 营销 归 因 分 析 、 反 洗钱 分 析 、 客 户 旅程 建 模 、 安 全 事故 原因 分 
析 、 基 于 文献 的 发 现 、 欺 诈 网 络 检测 、 互 联网 搜索 节点 分 析 、 地 图 应 用 创建 、 疾 病 聚 类 分 
析 ， 以 及 莎士比亚 戏剧 的 剧情 分 析 。 你 可 能 已 经 猪 到 了 ， 上 述 事 项 的 共同 点 是 都 会 用 到 
图 ， 这 证 明 莎 士 比 亚 所 说 的 “全 世界 是 一 张 图 ”' 是 正确 的 。 








当然 ， 莎 士 比 亚 的 那 句 话 并 没有 提 到 图 ， 他 写 的 是 舞台 。 但 请 注意 ， 上 述 例子 都 涉及 实体 
与 实体 之 间 的 关系 ， 包 括 直接 关系 和 间接 (传递) 关系 。 实 体 就 是 图 中 的 节点 ， 可 以 是 
人 、 事 件 、 对 和 象 、 概 念 或 位 置 。 市 点 之 间 的 关系 就 是 图 中 的 边 。 莎 士 比 亚 戏 剧 的 精髓 不 正 
是 对 实体 〈 节 点 ) 及 其 关系 ( 边 ) 的 逼真 刻画 吗 ? 也 许 ， 莎 士 比 亚 真 的 应 该 在 他 的 那 句 名 
言 中 写 上 图 。 











图 算法 和 图 数据 库 有 趣 且 强大 ， 这 并 不 是 因为 两 个 实体 之 间 的 简单 关系 ， 即 A 与 B 相关 。 
毕 况 ,数据库 标准 关系 模型 早 在 几 十 年 前 就 在 实体 关系 图 中 实例 化 了 这 些 关 系 类 型 。 真 下 
使 图 重要 的 是 方向 关系 和 传递 关系 。 在 方向 关系 中 ，A 可 能 导致 B， 反 之 则 不 一 定 。 在 传 
递 关系 中 ，A 可 以 与 B 直接 相关 ，B 可 以 与 C 直接 相关 ， 而 A 与 C 不 直接 相关 ， 即 A 通 
过 传递 关系 与 C 相关 。 


利用 这 些 传递 关系 ， 图 模型 能 够 揭示 实体 之 间 的 关系 ， 特 别 是 当 关 系 的 数量 众多 且 多 样 化 
时 ， 实 体 之 间 可 能 存在 许多 关系 (或 网 络 模式 ) 和 分 离 度 。 如 果 没 有 图 模型 ， 那 么 实体 可 
能 看 起 来 是 不 相连 或 不 相关 的 ， 也 就 无 法 在 关系 数据 库 中 表示 。 因 此 ， 图 模型 可 以 有 效 地 
应 用 于 许多 网 络 分 析 场 景 。 


思考 如 下 营销 归 因 用 例 :， 人 物 A 看 到 了 某 产品 的 促销 活动 信息 ， 并 在 社交 媒体 上 谈论 该 促 
销 活 动 ， 人 物 B 与 人 物 A 有 联系 ，B 看 到 了 A 的 评论 ， 然 后 购买 了 该 产品 。 从 营销 主管 
的 视角 来 看 ， 标 准 的 关系 模型 无 法 识别 这 样 的 归 因 ， 因 为 B 没有 看 到 活动 信息 ， 而 A 又 没 





























注 1: 原 话 是 All the world's a stage (全 世界 是 一 个 舞台 )。 一 一 译 者 注 


xi 


有 对 活动 做 出 实际 响应 。 这 样 的 活动 看 起 来 是 失败 的 ， 但 是 通过 图 分 析 算 法 就 会 发 现 ， 它 
实际 上 是 成 功 的 〈 投 资 回报 率 为 正 )， 基 于 促销 活动 和 最 终 客 户 购买 之 间 的 传递 关系 ， 通 
过 中 间 人 (位 于 中 间 的 实体 ) 实现 。 








接 下 来 ,思考 一 个 反 洗 钱 分 析 用 例 :， 人 物 A 和 人 物 C 涉嫌 非法 贩运 。 两 人 之 间 的 任何 互动 
(例如 金融 数据 库 中 的 交易 信息 ) 都 会 被 当局 标记 出 来 ， 并 受到 严格 审查 。 然 而 ， 如 果 A 
和 C 从 来 没有 过 业务 往来 ， 而 是 通过 安全 、 受 人 尊敬 、 未 经 标记 的 金融 机 构 B 进行 金融 交 
易 ， 那 么 如 何 发 现 非 法 交易 呢 ? 用 图 分 析 算 法 ! 图 引 敬 将 发 现 A 和 C 之 间 通 过 中 间 机 构 B 
的 传递 关系 。 


在 互联 网 搜索 中 ， 主 流 搜索 引擎 使 用 基于 图 的 超 链接 网 络 算法 查找 任意 给 定 的 检索 词 集 
合 ， 在 整个 互联 网 上 寻找 中 心 权威 节点 。 在 这 种 情况 下 ， 边 的 方向 性 至 关 重 要 ， 因 为 网 络 
中 的 权威 市 点 是 其 他 许多 市 点 会 指向 的 市 点 。 











基于 文献 的 发 现 (literature-based discovery，LBD) 是 一 种 基于 图 的 知识 网 络 应 用 ， 支 持 深 
入 挖掘 含有 成 千 上 万 篇 甚至 数 百 万 篇 期 刊 文章 的 知识 库 。“ 隐 性 知识 ”只 能 通过 已 发 表 的 
研究 成 果 之 间 的 关系 来 发 现 ， 而 这 些 研究 成 果 之 间 可 能 存在 多 度 分 离 (传递 关系 )。LBD 
已 被 应 用 于 癌症 研究 ， 该 领域 的 医疗 知识 库 富 含 语义 ， 包 含 症状 、 诊 断 结果 、 治 疗 方案 、 
药物 相互 作用 、 遗 传 标记 、 短 期 效果 和 长 期 作用 等 信息 ， 而 前 所 未 知 的 治疗 方法 和 对 疑难 
杂 症 的 有 效 治疗 方案 就 可 能 “隐藏 ”其 中 。 知 识 可 能 已 经 存在 于 网 络 之 中 ， 但 是 我 们 需要 
融会 贯通 才能 发 现 知识 。 












































对 于 前 面 提 到 的 其 他 用 例 ， 也 可 以 给 出 类 似 的 图 功能 描述 。 每 个 用 例 都 涉及 实体 (人 、 对 
象 、 事 件 、 动 作 、 概 念 和 位 置 ) 及 其 关系 (接触 点 ， 包 括 因果 关系 和 简单 关联 )。 


在 考虑 图 的 强大 功能 时 应 该 牢记 ， 对 于 实际 用 例 来 说 ， 图 模型 中 最 强大 的 当 必 上下文。 上 
下 文 包括 时 间 、 位 置 、 相 关 事 件 、 邻 近 实 体 等 。 将 上 下 文 作为 节点 和 边 整 合 到 图 中 ， 可 以 
产生 惊人 的 预测 分 析 和 规范 分 析 功 能 。 

这 本 书 则 在 帮 我 们 拓展 重要 图 分 析 类 型 的 相关 知识 和 能 力 ， 包 括 算法 、 概 念 以 及 算法 的 实 
际 机 器 学 习 应 用 等 。 从 基本 概念 到 基本 算法 ， 再 到 处 理 平台 和 实际 用 例 ， 作 者 编写 了 一 本 
内 容 翔实 且 富 有 指导 性 的 指南 ， 带 你 领略 图 的 奇妙 世界 。 






































Kirk Borne 博士 ， 博 思 艾 伦 咨 询 公司 首席 数据 科学 家 兼 执行 顾问 ，2019 年 3 月 
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从 金融 系统 和 通信 系统 ， 到 社会 过 程 和 生物 过 程 ， 整 个 世界 都 是 由 联系 驱动 的 。 揭 示 这 些 
联系 背后 的 含义 将 推动 各 行 各 业 在 很 多 领域 取得 突破 ， 例 如 识别 诈骗 团伙 、 优 化 建议 以 评 
估 群 组 实力 、 预 测 级 联 故 障 等 。 


随 着 连接 速度 不 断 加 快 ， 人 们 对 图 算法 的 兴趣 呈 爆 炸 式 增长 ， 这 不 足 为 奇 ， 因 为 图 算法 基 
于 数学 ， 甚 发 展 是 为 了 洞悉 数据 间 的 关系 。 图 分 析 可 以 揭示 复杂 系统 和 大 规模 网 络 的 运作 


机 制 ， 这 适用 于 任何 组 织 。 























图 分 析 的 实用 性 和 重要 性 令 人 着 迷 ， 揭 示 复 杂 场 景 内 部 运作 机 制 的 过 程 充满 乐趣 。 直 到 最 
近 ， 采 用 图 分 析 还 需要 大 量 专业 知识 和 判断 ， 因 为 工具 的 使 用 和 集成 非常 困难 ， 很 少 有 人 
知道 如 何 应 用 图 算法 来 解除 困惑 。 本 书 旨 在 改变 这 种 现状 ， 帮 助 组 织 更 好 地 利用 图 分 析 ， 
从 中 收获 新 发 现 ， 进 而 更 快 地 研究 出 智能 解决 方案 。 

















本 书 内 容 




















对 拥有 Apache Spark TM 或 Neo4j 使 用 经 验 的 开发 人 员 和 数据 科学 家 来 说 ， 本 书 是 帮助 他 们 
开始 学 习 图 算法 的 实用 指南 。 书 中 的 算法 示例 采用 Spark 和 Neo4j 两 种 平台 来 演示 ， 但 无 














论 选 择 哪 种 图 平台 ， 本 书 都 有 助 于 理解 常用 的 
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前 两 章 介 绍 图 分 析 、 图 算法 和 图 论 。 第 3 章 简要 介绍 本 书 要 使 用 的 平台 ， 第 4 ~ 6 章 深 入 
讨论 经 典 的 图 算法 ， 包 括 路 径 查 找 算法 、 中 心性 算法 、 社 团 发 现 算法 等 。 最 后 两 章 介绍 如 
何在 工作 流程 中 使 用 图 算法 : 第 7 章 介绍 常规 分 析 ， 第 8 章 讲 解 机 器 学 习 。 

















在 介绍 每 种 算法 之 前 ， 本 - 
介绍 都 包含 以 下 内 容 : 


。 算法 功能 ， 














上 都 会 给 出 一 份 速 查 表 ， 可 快速 跳 转 到 相应 算法 。 对 每 种 算法 的 
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。 算法 的 用 例 和 参考 资料 ， 以 便 了 解 更 多 内 容 ， 


。 示例 代码 ， 演 示 在 Spark、Neo4j (或 两 者 都 有 ) 上 应 用 算法 的 具体 方法 。 





排版 约定 
本 书 使 用 以 下 排版 约定 。 


口 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 











口 等 宽 字 体 (constant width) 
表示 程序 以 及 段落 内 引用 的 程序 元 素 ， 如 变量 
语句 、 关 键 字 。 

口 等 宽 粗 体 (constant width bold) 

表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 





口 等 宽 斜 体 (constant width italic) 














、 函 数 、 数 据 库 、 数 据 类 型 、 环 境 变 





表示 应 该 被 灰 换 为 由 用 户 提供 的 值 或 由 上 下 文 确定 的 值 的 文本 。 














该 图 标 表示 提示 或 建议 。 























该 图 标 表示 普通 的 注 记 。 














该 图 标 表示 警告 或 警示 。 























使 用 示例 代码 


本 书 的 附加 资料 〈 代 码 示 例 、 练 习 等 ) 可 以 从 O’Reilly 网 站 下载。 

















注 1: 也 可 以 访问 本 书 在 图 灵 社 区 的 页 面 并 下 载 示例 代码 : 














http://ituring.cn/book/2694。 一 一 编者 注 
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本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提 供 了 示例 代码 ， 你 可 以 把 它 用 在 自己 的 
程序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 本 
书 的 几 个 代码 片段 写 一 个 程序 就 无 须 获得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需 
要 获得 许可 ; 引用 本 书 中 的 示例 代码 回答 问题 无 须 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 
产品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。3 引 用 说 明 一 般 包 括 书 
名 、 作 者 、 出 版 社 和 ISBN， 例 如 Graph Algorithms by Mark Needham and Amy E. Hodler 
(O’Reilly). Copyright 2019 Mark Needham and Amy E. Hodler 978-1-492-04768-1。 


























如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 


O'Reilly 在 线 学 习 平台 (O'Reilly Online Learning) 


O'REILLY” 近 40 年 来 ，O’Reilly Media 致力 于 提供 技术 和 商业 培训 、 知 识 和 
卓越 见解 ， 来 帮助 众多 公司 取得 成 功 。 

我 们 拥有 独一无二 的 专家 和 革新 者 组 成 的 庞大 网 络 ， 他 们 通过 图 书 、 文 章 、 会 议和 我 们 的 

在 线 学 习 平 台 分 享 他 们 的 知识 和 经 验 。O’Reilly 的 在 线 学 习 平 台 允 许 你 按 需 访 问 现场 培训 

课程 、 深 入 的 学 习 路 径 、 交 互 式 编程 环境 ， 以 及 O’Reilly 和 200 多 家 其 他 出 版 商 提供 的 大 

量 文 本 和 视频 资源 。 有 关 的 更 多 信息 ， 请 访问 https://oreilly.com。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 





美 国 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 





中 国 





北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京) 有限 公司 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 bookquestions@oreilly.com。 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 书 的 相关 信息 ， 包 括 勘 误 表 *、 示 例 




















注 2: 本 书 中 文 版 勘误 请 到 http://ituring.cn/book/2694 查看 和 提交 。 一 一 编者 注 
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代码 以 及 其 他 信息 。 本 书 的 网 页 地 址 是 https://oreil.ly/graph-algorithms。 








要 了 解 OReilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 更 多 信息 ， 请 访问 以 下 网 站 : https://www. 


Oreilly.com 。 








我 们 在 Facebook 的 地 址 如 下 : https://facebook.com/oreilly。 
请 关注 我 们 的 Twitter 动态 : https://twitter.com/oreillymedia。 


我 们 的 YouTube 视频 地 址 如 下 : https:/www.youtube.com/oreillymedia。 
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我 们 非常 享受 写作 本 书 的 过 程 ， 在 此 感谢 所 有 为 本 书 撰写 提供 过 帮助 的 人 。 特 别 感谢 
Michael Hunger 的 指导 ， 也 感谢 Jim Webber 细致 的 编辑 和 Tomaz Bratanic 热忱 的 研究 。 最 
后 ， 非 常 感谢 Yelp 允许 我 们 使 用 其 丰富 的 数据 集 ， 助 力 构建 生动 的 示例 。 


电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 中 文 电 子 版 。 


























































































































图 是 计算 机 科学 的 一 大 主题 ， 可 用 于 抽象 表示 交通 运输 系统 、 人 际 交 往 网 络 和 电 

信 网 络 。 对 于 训练 有 素 的 程序 员 而 言 ， 能 够 用 一 种 形式 来 对 不 同 的 结构 建 模 是 强 
大 的 力量 之 源 。 

一 一 《算法 设计 指南 》 

Steven S. Skiena， 石 溪 大 学 计算 机 科学 杰出 授课 教授 








当今 紧迫 的 数据 挑战 在 于 厘清 关系 ， 而 不 仅仅 是 对 离散 数据 制 表 。 图 技术 及 其 分 析 方法 为 
用 于 研究 、 社 会 活动 和 商业 解决 方案 的 关联 数据 提供 了 强大 的 工具 ， 举 例如 下 : 

。 对 金融 市 场 、 信 息 技术 服务 等 多 种 动态 环境 建 模 ; 

。 预测 传染 病 的 传播 以 及 由 此 引发 的 服务 延迟 和 中 断 ， 

。 查找 用 于 机 器 学 习 的 预测 性 特征 ， 以 打击 金融 犯罪 ， 

。 发 现 针 对 个 性 化 体验 和 推荐 的 模式 。 

随 着 数据 之 间 的 关联 度 日 益 增 强 ， 系 统 也 越 来 越 复杂 ， 利 用 数据 中 丰富 且 不 断 演 进 的 关系 
变 得 非常 重要 。 

本 章 将 介绍 图 分 析 和 图 算法 。 在 介绍 图 算法 和 解释 图 数据 库 与 图 处 理 之 间 的 区 别 之 前 ， 首 
先 简要 回顾 图 的 起 源 。 本 章 将 探究 现代 数据 的 本 质 ， 揭 示 为 何 联系 所 含 的 信息 要 比 用 基本 
统计 方法 发 现 的 信息 复杂 得 多 ， 最 后 还 会 研究 一 些 图 分 析 用 例 。 


1.1 何谓 图 


图 的 历史 可 以 追溯 到 1736 年 ， 即 欧 拉 解决 “ 哥 尼 斯 保 七 桥 ”问题 的 那 一 年 。 哥 尼 斯 堡 七 
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桥 ” 问 题 是 指 ， 能 否 参观 哥 尼 斯 堡 市 里 由 7 座 桥 连接 的 4 个 区 域 ， 而 且 每 座 桥 只 允许 经 过 
一 次 。 实 际 上 这 是 不 可 能 做 到 的 。 





欧 拉 意 识 到 “ 哥 尼 斯 保 七 桥 ”问题 仅 与 连接 关系 本 身 相 关 ， 他 为 图 论 及 其 数学 运算 黄 定 
了 基础 。 图 1-1 描绘 了 欧 拉 的 解 题 过 程 ， 其 中 有 他 绘制 的 一 张 草 图 ， 搞 自 其 论文 “Solutio 


problematis ad geometriam situs pertinentis” '。 
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一 一 > 
经 过 哥 尼 斯 堡 的 桥 欧 拉 的 见解 图 论 的 起 源 
哥 尼斯 堡 市 的 4 块 主要 区 域 由 7 与 问题 相关 的 数据 只 有 各 主要 欧 拉 对 问题 进行 了 抽象 ， 并 且 
座 桥 连 通 。 你 能 仅 经 过 每 座 桥 区 域 和 连通 它们 的 桥 创建 了 基于 节点 和 关系 的 一 般 
一 次 并 且 回 到 起 点 吗 ? 性 规则 ， 这 可 以 应 用 于 任何 有 
连接 关系 的 系统 











图 1-1: 图 论 的 起 源 。 哥 尼斯 堡 市 有 两 座 岛 ， 它 们 通过 7 座 桥 与 该 市 的 另外 两 块 陆地 相连 。 难 题 在 于 
如 何 构建 一 条 遍历 整个 城市 的 路 径 ， 使 得 每 座 桥 只 经 过 一 次 


图 源 于 数学 ， 也 是 一 种 实用 且 高 精度 的 数据 建 模 和 分 析 方 法 。 构 成 图 的 对 象 称 为 节点 或 项 
点 ， 它 们 之 间 的 关联 称 为 关系 、 联 系 或 边 。 本 书 使 用 节点 和 关系 这 两 个 术语 。 可 以 把 节点 
看 作 句 子 中 的 名 词 ， 把 关系 看 作为 市 点 提供 上 下 文 的 动词 。 为 避免 混淆 ， 本 书 所 指 的 图 与 
图 1-2 中 的 方程 式 绘图 或 图 表 无 关 。 












































为 方程 绘图 
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图 1-2: 图 是 网 络 的 一 种 表示 方法 ， 通 常用 圆 表示 被 称 为 节点 的 实体 ， 用 线条 表示 关系 





注 1: 大 意 是 “位 置 几何 相关 问题 的 解决 方法 。 一 一 编者 注 
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请 看 图 1-2 中 的 人 物 图 ， 很 容易 就 能 想 出 儿 个 描述 该 图 的 句子 ， 例 如 信物 A 和 拥有 一 辆 车 
的 人 物 B 住 在 一 起 ， 人 物 A 驾驶 的 是 人 物 B 的 车 。 这 种 建 模 方法 很 有 趣 ， 因 为 易于 将 其 与 
现实 世界 联系 起 来 ， 也 便于 在 白板 上 展示 。 这 种 方法 有 助 于 进行 恰当 的 数据 建 模 和 分 析 。 


完成 图 的 建 模 才 行 至 半途 ， 还 需要 处 理 图 ， 揭 示 其 中 并 不 显而易见 的 信息 ， 而 这 正 是 图 算 
法 的 用 武之 地 。 


1.2 何谓 图 分 析 和 图 算法 


图 算法 属于 图 分 析 工具 。 图 分 析 是 使 用 基于 图 的 方法 来 分 析 关联 数据 的 过 程 。 有 多 种 方法 
可 用 ， 包 括 查 询 图 数据 、 使 用 基本 的 统计 方法 、 直 观 地 研究 图 ， 或 者 将 图 整合 到 机 器 学 习 
任务 中 ， 等 等 。 基 于 图 模式 的 查询 通常 用 于 局 部 数据 分 析 ， 而 图 计算 算法 通常 用 于 全 局 分 
析 和 选 代 分 析 。 尽 管 这 些 类 型 的 分 析 方法 在 运用 上 相互 交叉 ， 但 本 书 仍 使 用 图 算法 这 个 术 
语 来 指 代 后 者 ， 它 更 多 地 用 于 计算 分 析 和 数据 科学 。 



























































网 络 科 学 
网 络 科学 是 一 个 植 根 于 图 论 的 学 术 领 域 ， 主 要 研究 有 关 对 象 关 系 的 数学 模型 。 网 络 科 
学 家 依赖 图 算法 和 数据 库 管 理 系统 来 研究 数据 的 规模 、 关 联 性 和 复杂 性 。 
在 复杂 性 和 网 络 科 学 方面 有 许多 优质 资源 ， 下 面 列 出 一 些 供 参考 。 
。 Albert-Liszl6 Barabisi 撰写 的 Network Science， 这 是 一 本 入 门 电子 书 。 
。 Complexity Explorer 提供 的 在 线 课 程 。 
新 英格兰 复杂 系统 研究 所 (New England Complex Systems Institute) 提供 的 各 种 资 
源 和 论文 。 











图 算法 是 分 析 关 联 数据 的 一 种 有 效 方法 ， 因 为 图 的 数学 运算 是 针对 关系 运算 设计 的 。 图 算 
法 描述 了 处 理 图 以 发 现 其 一 般 性 质 或 特定 量 所 需 的 步骤 。 基 于 图 论 的 数学 原理 ， 图 算法 利 
用 市 点 之 间 的 关系 来 推断 复杂 系统 的 组 织 形态 和 动态 性 。 网 络 科 学 家 利用 这 些 算法 来 发 现 
隐藏 信息 ， 检 验 假设 ， 预 测 行 为 。 















































从 防 欺 诈 、 优 化 呼叫 路 由 到 预测 流感 传播 ， 图 算法 的 应 用 非常 广泛 ， 例 如 对 电力 系统 中 达 
到 过 载 条 件 的 特定 节点 进行 评分 ， 或 者 在 传输 系统 对 应 的 图 中 发 现 拥塞 分 组 。 























事实 上， 美国 民航 系 统 在 2010 年 经 历 了 两 起 严重 的 旅客 谱 留 事件 ， 波 及 多 个 机 场 ， 寻 
人 们 使 用 图 分 析 方 法 研究 了 这 两 起 事件 。 网 络 科 学 家 了 Fleurquin、J. J Ramasco 和 V ML 
Eguiluz 使 用 图 算法 证 实 了 这 两 起 事件 的 部 分 原因 是 系统 级 联 延迟 ， 并 在 纠正 建议 中 提 到 了 
这 些 信息 ， 详 见 论文 “Systemic Delay Propagation in the US Airport Network”。 
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为 了 将 航空 交通 网 络 可 视 化 ，Martin Grandjean 在 其 文章 “Connected World: Untangling the 
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Air Traffic Network” 中 创建 了 如 图 1-3 所 示 的 图 。 这 上 张 图 清晰 地 显示 了 航空 交通 徐 这 样 高 
度 连接 的 结构 。 许 多 交通 系统 的 连接 呈 集 中 式 分 布 ， 明 显 含 有 可 影响 延迟 的 中 心 辐射 模式 
(hub-and-spoke pattern ) 。 











3200 座 机 场 
60 000 条 航线 
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图 1-3: 航空 交通 网 络 展示 了 在 多 个 尺度 上 演进 的 中 心 辐射 结构 ， 这 些 结构 有 助 于 调节 交通 流量 


图 还 有 助 于 揭示 那些 非常 微小 的 交互 和 动态 变化 如 何 引发 全 局 突变 。 通 过 精确 表示 哪些 事 
物 在 全 局 结构 中 存在 交互 ， 图 将 微观 尺度 和 宏观 尺度 紧密 地 联系 在 一 起 。 这 些 关联 关系 可 
用 于 预测 行为 和 确定 缺失 的 联系 。 图 1-4 是 草原 物种 相互 作用 的 食物 网 ， 可 使 用 图 分 析 评 
佑 层级 组 织 和 物种 相互 作用 ， 然 后 预测 缺失 的 关系 ， 参 见 A. Clauset、C. Moore 和 M. E. 本 
Newman 的 论文 “Hierarchical Structure and the Prediction of Missing Links in Networks”。 












































1.3 图 处 理 、 图 数据 库 、 图 查询 和 图 算法 


图 处 理 是 指 执行 图 工作 载荷 和 任务 的 方法 。 大 多 数 图 查询 针对 图 的 特定 部 分 〈 例 如 起 始 节 
点 )， 而 且 要 做 的 工作 通常 集中 在 起 始 节点 周边 的 子 图 中 。 我 们 将 这 类 工作 称 为 局 部 图 处 理 ， 
而 且 这 意味 着 要 以 声明 方式 查询 图 的 结构 ， 参 见 Ian Robinson、Jim Webber 和 Emil Eifrem 
在 《图 数据 库 》 一 书 中 的 解释 。 这 类 局 部 图 处 理 通常 用 于 实时 事务 处 理 和 基于 模式 的 查询 。 


























当 谈 到 图 算法 时 ， 经 常 要 查找 全 局 模式 和 结构 。 算 法 的 输入 通常 是 整 张 图 ， 其 输出 则 既 可 
以 是 一 张 增强 的 图 ， 也 可 以 是 某 种 总 值 ， 比 如 得 分 。 我 们 将 这 样 的 处 理 归 类 为 全 局 图 处 
理 ， 这 意味 着 要 使 用 计算 方法 (通常 是 迭代 的 ) 来 处 理 图 的 结构 。 这 种 方法 通过 网 络 的 连 
接 关 系 揭示 其 整体 性 质 。 很 多 组 织 倾向 于 使 用 图 算法 来 对 系统 建 模 ， 并 且 基 于 事物 传播 途 
径 、 其 重要 组 件 、 群 组 标识 和 系统 的 整体 稳健 性 来 预测 行为 。 

























































































这 些 定义 可 能 存在 一 些 重 又 一 一 有 时 也 可 以 通过 处 理 算法 来 应 答 局 部 查询 ， 反 之 亦 然 。 但 
是 简 而 言 之 ， 对 整 张 图 的 操作 一 般 通 过 计算 方法 来 处 理 ， 而 对 子 图 的 操作 一 般 通过 数据 库 
来 查询 。 














传统 上 ， 事 务 处 理 和 事物 分 析 是 相互 独立 的 ， 这 是 一 种 基于 技术 限制 的 非 自 然 分 离 。 我 们 
认为 ， 图 分 析 可 以 驱动 更 智能 的 事务 ， 从 而 为 进一步 分 析 创 造 了 新 的 数据 和 机 会 。 最 近 出 
现 了 一 种 趋势 ， 那 就 是 将 这 两 个 部 分 集成 起 来 ， 以 实现 实时 决策 。 











OLTP 和 OLAP 


联机 事务 处 理 (online transaction processing，OLTP) 通常 涉及 一 些 短期 活动 ， 比 如 预订 机 
票 、 记 入 账户 、 预 售 商 品 等 。OLTP 提供 海量 低 延 迟 查 询 处 理 和 高 数据 完整 性 。 虽 然 OLTP 
的 每 个 事务 可 能 只 涉及 少量 记录 ， 但 是 系统 要 同时 处 理 许多 事务 。 


联机 分 析 处 理 (online analytical processing，OLAP) 有 助 于 对 历史 数据 进行 更 复杂 的 查询 
和 分 析 。 这 些 分 析 可 能 涉及 多 个 数据 源 、 多 种 格式 和 类 型 。 检 测 趋势 、 执 行 假设 场景 、 进 
行 预测 和 发 现 结构 模式 等 都 是 典型 的 OLAP 用 例 。 与 OLTP 相 比 ，OLAP 系统 处 理 的 事务 
更 少 ， 但 是 处 理 的 记录 更 多 且 运 行 时 间 更 长 。OLAP 系统 倾向 于 更 快 地 读 取 数 据 ， 并 不 希 
望 像 OLTP 那样 出 现 事务 更 新 ， 而 且 通 常 采 用 面向 批 处 理 的 操作 。 























然而 近年 来 ，OLIP 和 OLAP 之 间 的 界限 开始 变 得 模糊 。 现 代数 据 密集 型 应 用 已 将 实时 事 
务 操作 与 分 析 结 合 起 来 。 这 种 处 理 方式 上 的 整合 是 由 软件 领域 的 进步 推动 的 ， 例 如 可 伸缩 
性 更 强 的 事务 管理 和 增 量 流 处 理 ， 以 及 低 成 本 、 大 内 存 硬件 的 支持 。 

将 分 析 和 事务 结合 起 来 ， 就 可 以 将 连续 分 析 作 为 常规 作业 的 国有 组 成 部 分 。 针 对 从 POS 
机 、 人 制造 系统 或 物 联网 设备 收集 而 来 的 数据 ， 当 前 的 分 析 手 段 已 经 能 够 在 处 理 过 程 中 实 
时 推荐 和 进行 决策 。 这 种 趋势 在 儿 年 前 就 已 经 出 现 ， 用 于 描述 这 种 融合 的 术语 包括 事务 
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型 分 析 (translytics) 和 混合 事务 与 分 析 处 理 (hybrid transactional and analytical processing， 
HTAP)。 图 1-5 演示 了 如 何 使 用 只 读 副本 将 不 同类 型 的 处 理 组 合 到 一 起 。 

















事务 处 理 只 读 副 本 分 析 处 理 











图 1-5: 事务 处 理 需要 一 种 支持 低 延 迟 查询 处 理 和 高 数据 完整 性 的 混合 平台 ， 同 时 需要 在 海量 数据 之 
上 集成 复杂 分 析 


Gartner 认为 : 


(HTAP) 可 能 会 重新 定义 一 些 业务 流程 的 执行 方式 ， 因 为 实时 高 级 分 析 (例如 规 
划 、 预 测 和 假设 分 析 ) 变 成 了 处 理 过 程 的 组 成 部 分 ,而 不 再 是 事后 执行 的 单独 活 
动 。 这 将 支持 新 型 的 实时 业务 驱动 决策 过 程 。 最 终 ，HTAP 将 成 为 面向 智能 业务 
操作 的 关键 支持 架构 。 


随 着 OLTP 和 OLAP 逐渐 集成 ， 开 始 支 持 以 前 仅 在 单个 “竖井 ”中 提供 的 功能 ， 不 再 需要 
为 工作 载 衍 使 用 不 同 的 数据 产品 或 系统 一 一 可 以 使 用 相同 的 平台 以 简化 架构 。 这 意味 着 分 
析 查 询 可 以 利用 实时 数据 ， 而 且 可 以 简化 分 析 的 迭代 过 程 。 


1.4 为 何 要 关心 图 算法 


图 算法 有 助 于 理解 关联 数据 。 关 系 广 泛 存在 于 现实 世界 的 系统 中 ， 从 蛋白 质 的 相互 作用 到 
社交 网 络 ， 从 通信 系统 到 电网 ， 从 零售 体验 到 火星 任务 规划 。 理 解 网 络 及 其 内 部 联系 为 洞 
察 和 创新 提供 了 不 可 思议 的 闹 力 。 

图 算法 特别 适用 于 理解 结构 和 揭示 高 度 关联 的 数据 集中 的 模式 。 没 有 什么 比 大 数据 更 能 
现 关联 性 和 交互 性 了 。 大 数据 汇集 、 混 合 和 动态 更 新 的 信息 量 令 人 瞩目 。 这 正 是 图 算法 的 
用 武之 地 ， 它 有 助 于 我 们 理解 海量 数据 ， 针 对 关系 进行 更 复杂 的 分 析 ， 还 可 以 为 人 工 智 能 
丰富 上 下 文 信息 。 


随 着 数据 之 间 的 联系 越 来 越 紧密 ， 理 解数 据 之 间 的 依赖 关系 变 得 越 来 越 重 要 。 研 究 网 络 增 
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长 的 科学 家 注意 到 ， 连 接 性 会 随 着 时 间 的 推移 而 增强 ， 但 是 并 不 均匀 。 择 优 连 接 理论 是 研 





究 动态 增长 如 何 影响 结构 的 一 种 理论 。 如 图 1-6 所 示 ， 该 至 














论 描述 了 这 样 一 种 趋势 : 一 个 














节点 倾向 于 连接 到 已 经 有 很 多 连接 的 节点 。 




















1-6: 择优 连接 现象 :一 个 节点 的 连接 关系 越 多 ， 就 越 有 可 能 建 
中 度 和 中 心 


立新 的 联系 。 这 导致 了 不 均匀 的 集 





Steven Strogatz 的 著作 《同步 : 秩序 如 何 从 混沌 中 涌现 》 给 出 了 一 些 示 例 ， 解 释 了 现实 系 
统 进 行 自 组 织 的 不 同方 式 。 不 管 潜 在 原因 和 如何， 许多 研究 人 员 相 信 ， 网 络 的 增长 方式 与 其 














最 终 形态 和 层级 是 密 不 可 分 的 。 高 密度 群 组 和 块 状 数据 网 络 会 不 断 发 展 ， 复 杂 性 会 随 着 数 





据 规模 的 增长 而 增长 。 从 互联 网 到 图 1-7 所 示 的 游戏 社区 神 
多 数 网 络 中 存在 这 种 关系 的 聚集 现象 。 





F 交 网 络 ， 在 当今 现实 世界 的 大 











382 个 社区 


其 中 5 个 社区 关联 了 


50% 的 受众 


集中 式 分 布 








1-7: 对 游戏 社区 的 分 析 显 示 ， 在 382 个 社区 中 ， 只 有 5 个 社区 的 连接 最 为 集中 





图 1-7 所 示 的 网 络 分 析 是 由 Pulsar 公司 的 Francesco D’Orazio 提出 的 ， 旨 在 辅助 预测 视频 
的 病毒 式 传播 趋势 并 为 制定 视频 分 发 策略 提供 信息 。Francesco DOrazio 发 现 ， 社 区 分 布 的 
集中 度 和 内 容 扩 散 速 度 存 在 相关 性 。 


这 与 平均 分 布 模型 预测 的 结果 截然 不 同 。 在 平均 分 布 模型 中 ， 大 多 数 节点 具有 相同 数量 的 
连接 。 如 果 万 维 网 的 连接 是 平均 分 布 的 ， 那 么 所 有 网 页 的 出 入 链接 数量 都 相同 。 平 均 分 布 
模型 认为 ， 大 多 数 节 点 是 平等 连接 的 ， 但 是 许多 类 型 的 图 和 许多 真实 网 络 表 现 出 集中 式 分 
布 特征 。 与 旅行 网 和 社交 网 络 的 图 一 样 ，Web 也 具有 震 律 分 布 特征 ， 即 少数 节点 高 度 连 
接 ， 而 多 数 市 点 的 连接 较 少 。 





宕 人 律 
究 律 (也 称 标 度 律 ) 描述 了 两 个 量 之 间 的 关系 ， 其 中 一 个 量 随 另 一 个 量 的 因而 变化 ， 
例如 一 个 立方 体 的 体积 是 其 边 长 的 3 次 畸 。 一 个 著名 的 例子 是 帕 累 托 分 布 ( 也 称 
二 八 定律 )， 它 最 初 用 来 描述 20% 的 人 口 控制 80% 的 财富 。 在 自然 界 和 网 络 中 存在 
各 种 规律 。 











试图 使 网 络 均匀 分 布 的 想法 通常 不 适用 于 研究 关系 或 进行 预测 ， 因 为 现实 网 络 中 的 节点 和 
关系 分 布 并 不 均匀 。 如 图 1-8 所 示 ， 对 不 均匀 的 数据 使 用 平均 特征 会 导致 错误 的 结果 。 












晨 律 分 布 守 律 分 布 
如 果 大 多 数 节点 的 关系 很 少 ， 如 果 大 多 数 节 点 有 相同 数量 的 关系 ， 
但 是 少数 节点 拥有 大 量 关 系 ， 就 会 形成 扁平 结构 








就 会 形成 一 种 中 心 辐射 式 结构 


洋 汕 和 害 


i 
上 大 多 数 节点 在 这 里 















关系 数 











图 1-8: 在 现实 网 络 中， 节点 和 关系 的 分 布 不 均 义 ， 在 极端 情况 下 表现 出 晕 律 分 布 特征 。 均 匀 分 布 候 
设 大 多 数 节点 具有 相同 数量 的 关系 ， 这 样 产 生 的 是 一 个 随机 网 络 








由 于 高 度 连接 的 数据 并 不 遵循 平均 分 布 ， 因 此 网 络 科学 家 使 用 图 分 析 来 搜索 和 解释 真实 数 
据 的 结构 和 关系 分 布 。 











在 已 知 的 自然 界 中 ， 没 有 任何 一 个 网 络 可 以 用 随机 网 络 模型 来 描述 。 


一 一 Albert-Liszl6 Barabhsi， 美 国 东 北大 学 复杂 网 络 研究 中 心 主任 ， 
著 有 多 本 网 络 科 学 相关 图 书 


大 多 数 用 户 面临 的 挑战 是 ， 使 用 传统 分 析 工 具 来 分 析 密 集 而 不 均匀 的 关联 数据 非常 麻烦 。 
在 数据 中 可 能 存在 某 种 结构 ， 但 是 很 难 找到 。 采 用 平均 方法 处 理 混 乱 的 数据 确实 很 诱 人 ， 
但 是 这 种 做 法 会 隐藏 模式 ， 而 且 结果 无 法 代表 任何 真实 群 组 。 如 果 将 所 有 客户 的 人 口 统计 
信息 都 做 平均 化 处 理 ， 并 且 仅 基于 平均 化 处 理 结 果 来 提供 客户 体验 ， 那 么 肯定 会 漏 掉 大 多 
数 群 体 : 社团 往往 是 围绕 年 龄 、 职 业 、 婚 姻 状 况 和 地 址 等 因素 形成 的 。 


此 外 ， 通 过 快照 无 法 发 现 动态 行为 ， 尤 其 是 那些 围绕 突 发 性 事件 和 爆发 性 事件 的 动态 行 
为 。 如 果 社 交 群 体 的 人 际 关系 不 断 增加 ， 就 意味 着 有 更 多 的 交流 。 这 会 导致 出 现 协 调 临界 
点 ， 随 后 出 现 联盟 ， 或 者 形成 子 群体 并 出 现 两 极 分 化 〈 例 如 选举 )。 预 测 网 络 随时 间 的 演 
变 需要 更 复杂 的 方法 ， 但 是 如 果 了 解数 据 中 的 结构 和 交互 ， 就 能 推断 行为 。 由 于 图 分 析 注 
重 关 系 研究 ， 因 此 也 用 于 预测 群 组 的 弹性 。 


1.5 图 分 析 用 例 


在 最 抽象 的 层次 上 ， 图 分 析 可 以 应 用 于 预测 动态 群 组 的 行为 和 规定 动作 。 要 实现 这 一 点 ， 
就 需要 了 解 群 组 内 部 的 关系 和 结构 。 图 算法 通过 检查 网 络 连接 的 整体 特性 来 实现 这 一 点 。 
通过 这 种 方法 ， 就 可 以 理解 关联 系统 的 拓扑 结构 并 为 其 流程 建 模 。 


关于 是 否 需 要 采用 图 分 析 和 图 算法 ， 图 1-9 列 出 了 3 类 常见 问题 。 




























































































传播 途径 流程 与 影响 交互 与 弹性 
事物 如 何 传播 ? 功能 、 代 价 和 控制 点 事物 如 何 交 互 ? 
是 什么 ? 交互 方式 将 如 何 改变 ? 











图 1-9: 图 分 析 所 回答 的 问题 类 型 








下 面 是 图 分 析 和 图 算法 的 一 些 用 例 。 你 所 面临 的 挑战 与 之 相似 吗 ? 











。 调查 传染 病 或 级 联 传输 故障 的 传播 路 径 。 

。 发 现 网 络 中 最 易 受 攻击 或 最 易 损坏 的 组 件 。 
。 确定 在 传送 信息 或 资源 时 速度 最 快 、 代 价 最 小 的 方式 。 
。 预测 数据 中 缺失 的 联系 。 

。 定位 复杂 系统 中 的 直接 影响 和 间接 影响 。 

。 发 现 不 可 见 的 层级 结构 和 依赖 关系 。 

。 预测 群 组 将 合并 还 是 分 裂 。 

。 发 现 瓶颈 及 有 权 拒 绝 或 提供 更 多 资源 的 个 体 。 
。 基于 行为 发 现 社团 以 进行 个 性 化 推荐 。 

。 减少 欺诈 和 异常 检测 中 的 假 正 例 。 

。 为 机 器 学 习 提取 更 多 预测 性 特征 。 


1.6 





























小 结 


本 章 介绍 了 当今 数据 是 如 何 紧 密 关 联 在 一 起 的 ， 以 及 其 意义 所 在 。 在 分 析 群 组 动态 性 和 关 











系 方 下 








1， 目前 已 经 有 了 活跃 的 科学 实践 ,但 是 相关 工具 在 很 多 行业 不 常见 。 在 评估 先进 的 








分 析 技 术 时 ， 应 该 考虑 数据 的 本 质 特性 ， 思 考 是 否 需要 了 解 社团 属性 或 预测 复杂 行为 。 如 
有 果 数 据 用 于 表示 某 个 网 络 ， 就 应 该 避免 这 样 做 ， 不 要 缩减 要 素 以 采用 平均 模型 ， 而 应 该 使 
用 与 数据 和 所 寻求 的 见解 相 匹配 的 工具 。 


第 2 章 将 介绍 图 的 概念 和 术语 。 
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图 论 及 其 概念 


本 章 介 绍 全 书 内 容 设 置 、 图 算法 相关 术语 和 图 论 的 基础 知识 ， 重 点 解释 与 图 论 研究 人 员 关 


系 最 密切 的 那些 概念 。 
首先 介绍 图 的 表示 方法 ， 然 后 

















介绍 不 同类 型 的 图 及 其 性 质 。 这 些 内 容 非常 重要 ， 因 为 图 的 





特征 决定 了 对 算法 的 选择 ， 也 有 助 于 理解 算法 的 结果 。 本 章 最 后 将 各 概述 本 书 拟 详细 介绍 的 





各 种 图 算法 类 型 。 


2.1 术语 














标记 属性 图 是 一 种 流行 的 图 数据 建 模 方法 。 








标签 将 节点 标记 为 群 组 的 一 部 分 。 图 2-1 有 两 组 节点 : Person 和 Car。( 在 经 典 图 论 中 ， 标 
A a a dn eg 
本 例 中 的 关系 类 型 有 DRIVES、OWNS、LIVES_WITH 和 MARRIED_T0。 








name:"Dan'" 
born:May 29, 1970 
twitter:"@dan" 
on:Jan 1, 2013 


MARRIED TO 
LIVES WITH 


since:Jul 2009 


人 





name: "Ann" 
born:Dec 5, 1975 


A 10, 2011 


brand: "Volvo" 
model:"V70" 


节点 
， 可 带 用 于 分 类 的 标签 
”标签 带 有 自然 索引 


关系 
。 按照 类 型 和 方向 关联 节点 


性 质 

。 是 节点 和 关系 的 属性 

”以 “名 称 - 取 值 ”对 的 形式 存储 
。 可 带 有 索引 和 复合 索引 











图 2-1: 标记 属性 图 模型 能 够 灵活 、 简 洁 地 表示 关联 数据 


性 质 (property) 是 属性 (attribute) 的 同义词 ， 可 以 包含 多 种 数据 ， 如 数值 、 字 符 串 以 及 
空间 数据 和 时 态 数据 。 图 2-1 将 性 质 指定 为 “名 称 - 取 值 ” 对 ， 甚 中 性 质 的 名 称 在 前 ， 取 
值 在 后 。 例 如 左边 Person 节点 的 性 质 name 取 值 为 Dan，NMARRIED_T0 关系 的 性 质 on 则 取 值 





为 Jan 1，2013。 


子 图 是 位 于 较 大 图 内 的 图 '。 
滤器 非常 有 用 。 





当 需 要 用 具有 特定 特征 的 子 集 进行 重点 分 析 时 ,将 子 








当 作 过 








路 径 由 一 组 节点 及 其 连接 关系 构成 。 以 图 2-1 为 例 ， 一 条 简单 的 路 径 可 以 包含 节点 Dan、 


Ann 和 Car 以 及 关系 DRIVES 和 ONNS 。 


图 的 类 型 、 形 状 、 大 小 以 及 可 用 于 分 析 的 属性 类 型 都 各 不 相同 。 下 面 介绍 儿 种 适合 图 算法 





入 | 


处 理 的 











2.2 图 的 类 型 和 结构 


。 请 记 住 ， 这 些 对 图 的 说 明 也 适用 于 子 图 。 


在 经 典 图 论 中 ， 图 等 同 于 简单 图 〈 也 称 严格 图 ) ， 其 节点 之 间 只 有 一 个 关系 ， 如 图 2-2 中 的 


左 侧 例 图 所 示 。 然 而 ， 在 大 多 数 实际 的 
现在 ， 图 这 个 术语 通常 涵盖 了 











注 1: 更 严谨 的 表述 是 : 子 图 





加 











的 节点 集 和 边 集 分 别 是 原 图 


中 ， 节 点 之 间 有 多 个 关系 ， 项 至 有 自 引 用 关系 。 


图 2-2 中 的 3 种 ， 在 本 书 中 亦 然 。 








市 点 集 和 边 集 的 子 集 。 一 一 译 者 注 
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YOY 








简单 图 多 重 图 〈 也 称 伪 图 ) 
节点 对 之 间 只 能 有 一 个 节点 对 之 间 可 以 有 多 个 节点 对 之 间 可 以 有 多 个 
关系 关系 关系 ， 市 点 可 以 回环 到 
自身 


























图 2-2: 在 本 书 中 ， 图 这 个 术语 涵盖 3 种 经 典 的 图 


随机 结构 、 小 世界 结构 和 无 标 度 结构 


图 可 以 呈现 为 多 种 形状 。 图 2-3 描绘 了 3 种 有 代表 性 的 网 络 。 

















随机 结构 小 世界 结构 无 标 度 结构 

均匀 分 布 高 局 部 聚 类 且 平 均 路 径 在 多 个 标 度 上 保持 中 心 
没有 结构 或 层级 模式 长 度 短 辐射 式 架构 
中 心 辐射 式 架 构 高 老 律 分 布 














图 2-3: 3 种 图 形 不 同 且 行为 特征 各 异 的 网 络 结构 


口 随机 网 络 
随机 网 络 没 有 层级 结构 ， 其 连接 分 布 完全 平均 。 这 种 具有 随机 形状 的 图 是 “扁平 的 ”， 
且 没 有 可 辨识 的 模式 。 任 一 节点 连接 到 其 他 节点 的 概率 都 相同 。 


口 小 世界 网 络 
小 世界 网 络 在 社交 网 络 中 极为 常见 ， 它 展现 了 局 部 化 的 连接 和 中 心 辐射 模式 。Kevin 
Bacon 的 “六 度 空间 ”游戏 可 能 是 小 世界 效应 最 著名 的 例子 。 虽 然 个 人 经 常 交往 的 朋友 只 
是 一 个 小 群体 ， 但 离 任何 人 都 不 远 一 一 无 论 是 著名 演员 ， 还 是 远 在 地 球 另 一 端的 人 们 。 











口 无 标 度 网 络 


































































































































































































当 存在 稼 律 分 布 时 就 会 产生 无 标 度 网 络 ， 而 且 不 管 标 度 如 何 ， 都 会 保持 中 心 辐射 式 架 
构 ， 例 如 万 维 网 。 
这 些 网 络 类 型 组 成 了 具有 独特 结构 、 分 布 和 表现 的 图 。 当 使 用 图 算法 时 ， 结 果 会 包含 类 似 
模式 。 
2.3 图 的 种 类 
要 想 充分 利用 图 算法 ， 熟 悉 最 具 代 表 性 的 图 很 重要 。 表 2-1 总 结 了 图 的 常见 属性 ， 之 后 详 
细 探 讨 不 同 种 类 的 图 。 
表 2-1: 图 的 常见 属性 
属 性 关键 因素 算法 考虑 
连通 与 不 连通 ”图 中 任意 两 个 节点 之 间 是 否 存 在 一 条 节点 “孤岛 ”可 能 会 导致 意外 表现 ， 例 如 无 法 处 理 
路 径 ， 不 考虑 距离 因素 不 连通 分 量 
加 权 与 不 加 权 ”关系 或 节点 是 否 有 (特定 领域 的 ) 值 0 如 果 忽 略 权 重 ， 就 会 发 现 算法 
在 性 能 和 结果 上 都 存在 显著 差异 
有 癌 与 无 向 关系 是 否 明确 定义 了 起 始 节点 和 终止 这 为 推断 额外 含义 增加 了 丰富 的 上 下 文 信息 。 在 某 
节点 些 算法 中 ， 可 以 明确 设 定 使 用 单 向 、 双 向 还 是 无 向 
有 环 与 无 环 路 径 的 起 点 和 终点 是 否 为 同一 有 环 图 很 常见 ， 但 是 在 算法 处 理 上 必须 小 心 (通常 
按照 存储 的 遍历 状态 来 处 理 ) ， 否 则 循环 可 能 无 法 
终止 。 无 环 图 (或 生成 树 ) 是 许多 图 算法 的 基础 
稀 玻 与 稠密 关系 数 与 节点 数 的 比值 极为 稀 玻 和 极为 稠密 的 连通 图 都 会 导致 异常 结 
假如 稀 玻 性 或 稠密 性 并 非 该 领域 的 固有 特征 ， 0 
以 借助 数据 建 模 
单 部 、 二 部 与 节点 只 与 一 种 其 他 类 型 的 节点 连接 有 助 于 创建 关系 来 分 析 和 投影 更 有 用 的 图 
大 部 ， 户 喜欢 某 些 电影 )， 
他 多 种 节点 连接 (用 户 喜 欢 爱好 基 些 
影 的 用 户 ) 
2.3.1 连通 图 与 非 连 通 图 
Rl te et a i 如 果 图 中 存在 “孤岛 ”>， 则 为 非 连 
通 图 。 如 果 这 些 “ 孤 岛 ”中 的 节 通 的 ， 则 称 其 为 分 量 (也 称 簇 )， 如 图 2-4 所 示 。 
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、 


连通 图 非 连 通 图 


包含 3 个 分 量 











图 2-4: 如 果 图 中 存在 “孤岛 "， 就 是 非 连 通 图 


有 些 算法 难以 处 理 非 连通 图 ， 而 且 可 能 产生 误导 性 结果 。 如 有 果 出 现 意外 结果 ， 应 当 首 先 检 
查 图 的 结构 。 




















2.3.2 无 权 图 与 加 权 图 
无 权 图 没有 为 其 市 点 或 关系 赋予 权重 。 对 于 加 权 图 ， 这 些 值 可 以 代表 各 种 量 ， 比 如 成 本 、 
时 间 、 距 离 、 容 量 ， 甚 至 特定 领域 的 优先 级 。 图 2-5 展示 了 无 权 图 和 加 权 图 的 差异 。 
































无 权 图 加 权 图 











2-5: 加 权 图 可 以 保存 关系 或 节点 的 值 

基础 的 图 算法 在 处 理 过 程 中 可 以 使 用 权重 表示 关系 的 强度 或 取 值 。 许 多 算法 会 计算 指标 ， 
并 将 其 作为 进一步 处 理 的 权重 。 有 些 算法 会 在 进一步 寻找 累计 总 数 、 最 小 值 或 最 优 值 时 更 
新 权重 。 





























路 径 查 找 算法 是 加 权 图 的 经 典 应 用 之 一 。 这 种 算法 支撑 着 手机 上 的 地 图 应 用 程序 ， 它 们 能 
计算 出 各 位 置 之 间 最 短 、 最 经 济 或 最 快 的 交通 路 线 ， 例 如 图 2-6 使 用 两 种 方法 来 计算 最 短 
路 径 。 

















节点 A 和 节点 E 之 间 的 
最 短路 径 是 哪 一 条 ? 
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无 权 图 加 权 图 
A,D,E=2 跳 A, C, D, E= 50 











图 2-6: 看 似 相同 的 无 权 图 和 加 权 图 ， 最 短路 径 可 能 不 同 

当 没 有 权重 时 ， 最 短路 径 是 根据 关系 〈 通 常 称 为 跳 ) 的 数量 计算 的 。A 和 王 之 间 有 一 条 两 
跳 的 最 短路 径 ， 这 说 明 它 们 之 间 只 有 一 个 节点 (D)。 从 A 到 也 的 最 短 加 权 路 径 则 是 从 和 A 
到 C 到 D 再 到 E。 在 这 种 情况 下 ， 以 跳 数 计算 的 最 短路 径 实际 上 和 是 物理 距离 为 70 千 米 的 
那 条 较 长 的 路 径 。 


2.3.3 无 向 图 与 有 向 图 


在 无 向 图 中 ， 关 系 是 双向 的 〈 例 如 友谊 ) ， 在 有 向 图 中 ， 关 系 有 特定 的 方向 。 指 向 某 个 节 
点 的 关系 称 为 入 连接 (in-link) ; 同 理 ， 源 于 某 个 节点 的 关系 称 为 出 连接 (out-link ) 。 

















方向 增加 了 另 一 个 维度 的 信息 。 类 型 相同 但 方向 相反 的 关系 具有 不 同 的 语义 ， 这 是 因为 方 
向 表达 了 依赖 关系 或 指明 了 流程 。 这 种 特性 也 用 作 可 信 度 或 群体 力量 的 指标 。 借 助 方向 还 
可 以 很 好 地 表达 个 人 偏好 和 社会 关系 。 


假设 图 2-7 中 的 有 向 图 是 一 个 人 际 网 络 且 关系 为 “喜欢 ， 那 么 通过 计算 会 发 现 A 和 C 更 


受 欢迎 。 


























无 向 图 


有 向 图 





图 2-7: 许多 算法 允许 分 别 基于 入 连接 或 出 连接 、 基 于 双向 或 不 考虑 方向 进行 计算 
道路 网 可 以 说 明 这 两 种 图 都 有 用 ， 例 如 城市 之 间 的 高 速 公路 通常 是 双向 的 ， 然 而 在 城市 内 


部 ， 有 些 道路 是 单行 道 ( 茶 些 信息 流 也 是 如 此 )。 


与 有 向 方式 相 比 ， 以 无 向 方式 
友谊 关系 等 ， 我 们 假设 所 有 关系 都 是 双向 的 。 


把 图 2-7 重新 想象 成 一 个 有 向 公路 网 ， 可 以 从 C 和 DD 开车 到 A， 但 是 只 能 经 C 离 
一 来 ， 如 果 从 A 到 C 不 存在 关系 ， 就 行 不通 了 。 单 行道 路 网 一 般 不 太 可 能 昌 














但 是 对 于 处 至 








2.3.4 无 环 图 与 有 环 图 

在 图 论 中 ， 从 同一 节点 开始 和 结束 ， 其 间 经 过 的 关系 和 节点 所 形成 的 路 径 就 是 环 ， 无 环 
则 没有 这 样 的 环 。 如 图 2-8 所 示 ， 有 向 图 和 无 向 
着 关系 方向 前 进 ， 其 中 图 1 是 有 向 无 环 图 (directed acyclic graph，DAG)， 根据 定义 ,该 


图 总 有 端点 


LE 流程 或 网 页 来 说 就 不 是 这 样 的 了 。 














(也 称 叶 节 点 )。 


运行 











算法 会 得 到 不 同 的 结果 。 在 无 向 图 中 ， 例 如 高 

















图 都 可 以 有 环 ， 但 对 于 有 向 图 ， 路 径 要 治 


路 或 











无 环 图 


扫 也 攻 














有 环 图 








图 2-8: 在 无 环 图 中 ， 如 果 不 回溯 步骤 ， 就 不 可 能 从 同一 节点 开始 和 结 











在 图 2-8 中 ， 图 1 和 图 2 没有 环 ， 这 是 因为 无 法 在 同一 节点 开始 和 结束 且 关 系 不 重复 。 第 
1 章 讲 过 ， 图 论 的 起 产 是 “ 哥 尼 斯 你 七 桥 ” 问 题 ， 该 问题 所 要 求 的 正 是 关系 不 重复 ! 图 2-8 
中 的 图 3 展示 了 一 个 按照 A-D-C-A 走向 的 简单 环 ， 其 中 没有 重复 节点 。 在 图 4 中， 添加 节 
点 和 关系 之 后 ， 无 向 有 环 图 变 得 更 有 意思 了 ， 它 形成 了 带 有 重复 节点 (C) 的 闭环 ， 按 照 
B-F-C-D-A-C-B 的 顺序 走向 ， 实 际 上 图 4 中 有 多 个 环 。 


























环 很 常见 ， 有 时 需要 将 有 环 图 转换 为 无 环 图 (通过 切 制 关 系 ) 来 消除 处 理 方面 的 问题 。 在 
调度 、 谱 系 学 和 版 本 历史 等 问题 中 经 常 出 现 有 向 无 环 图 。 


树 

在 经 典 图 论 中 ， 无 向 无 环 图 也 称 为 树 。 在 计算 机 科学 中 ， 树 也 可 以 有 向 。 一 个 更 宽泛 的 定 
义 是 : 树 是 任何 两 个 节点 间 都 仅 有 一 条 路 径 连接 的 图 。 树 对 于 理解 图 的 结构 和 许多 算法 很 
重要 。 它 们 在 为 改进 分 类 或 组 织 层 级 而 设计 网 络 、 数 据 结 构 以 及 最 优 搜索 方案 等 方面 起 着 
关键 作用 。 


有 关 树 及 其 变 体 的 著作 已 经 有 很 多 了 。 图 2-9 展示 了 几 种 常见 的 树 。 










































































有 根 树 二 叉 树 生成 树 
有 根 市 点 且 无 环 最 多 有 两 个 子 节点 包含 所 有 市 点 但 
且 无 环 不 包含 所 有 关系 
且 无 环 的 子 图 











图 2-9: 在 这 些 原型 树 的 图 中 ， 生 成 树 是 更 常用 的 图 算法 

在 这 些 变 体 中 ， 生 成 树 与 本 书 内 容 最 为 相关 。 生 成 树 是 子 图 ， 它 包含 了 一 个 更 大 无 环 图 的 
所 有 节点 ， 但 不 包含 该 图 的 所 有 关系 。 最 小 生成 树 用 最 少 的 跳 数 或 者 说 权重 最 小 的 路 径 连 
接 图 中 的 所 有 市 点。 























2.3.5” 稀 下 图 与 稠密 图 

图 的 稀 玻 性 基于 图 所 拥有 的 关系 数 与 其 最 大 可 能 关系 数 的 比值 来 度量 ， 当 每 对 节点 之 间 都 
存在 关系 时 即 可 得 到 最 大 可 能 关系 数 。 如 果 图 的 每 个 节点 都 与 其 他 节点 之 间 存 在 关系 ， 则 
称 其 为 完全 图 ， 或 者 对 分 量 来 说 也 可 称 为 团 。 如 果 我 所 有 的 朋友 都 认识 对 方 ， 就 形成 了 一 
个 “ 团 ”。 
































图 的 最 大 密度 是 指 其 完全 图 中 可 能 存在 的 关系 数 。 可 以 通过 公式 MaxD = -来 计算 ， 


其 中 为 节点 数 。 使 用 公式 品 = CAY 来 度量 实际 密度 ， 其 中 及 是 关系 数 。 图 2-10 展示 


了 3 个 度量 无 向 图 实际 密度 的 例子 。 


























稀疏 图 稠密 图 完全 图 ( 团 ) 
密度 =0.3 密度 =0.8 密度 =1.0 
2(5) 2402) _ 25) 
”6(6-1) ~ 6(6-1) ~ 6(6-1) 




















图 2-10; 检查 图 的 密度 有 助 于 评估 意外 的 结果 


虽然 没有 严格 的 分 界线 ， 但 是 任何 实际 密度 接近 最 大 密度 的 图 都 可 以 看 作 笛 密 图 。 大 多 数 
基于 真实 网 络 的 图 较为 稀 玻 ， 且 节点 总 数 和 关系 总 数 之 间 近 似 于 线性 相关 ， 在 物理 因素 发 
挥 作 用 的 情况 下 更 是 如 此 ， 例 如 一 个 节点 能 够 连接 多 少 电线 、 管 道 、 道 路 或 友谊 等 都 是 有 
实际 限制 的 。 


针对 极其 稀 足 或 稠密 的 图 执行 某 些 算法 会 返回 无 意义 的 结果 。 一 方面 ， 如 有 果 图 太 稀 玻 ， 那 
么 可 能 没有 足够 的 关系 来 支撑 算法 计算 出 有 用 的 结果 。 另 一 方面 ， 在 连接 非常 稠密 的 节点 
之 间 不 会 有 太 多 额外 信息 ， 这 是 因为 它们 的 关系 已 经 足够 紧密 了 。 高 密度 会 扭曲 一 些 结果 
或 者 增加 计算 复杂 度 。 在 这 些 情况 下 ， 过 滤 相 关子 图 是 一 种 实用 方法 。 














2.3.6 ” 单 部 图 、 二 部 图 和 k 部 图 
大 多 数 网 络 包 含 具有 多 种 节点 和 关系 的 数据 ， 然 而 图 算法 通常 只 考虑 一 种 节点 和 一 种 关 
系 。 只 有 一 种 节点 和 一 种 关系 的 图 有 时 称 为 单 部 图 。 


二 部 图 的 节点 可 以 划分 成 两 个 集合 ， 甚 关系 仅 连 接 一 个 集合 的 节点 和 另 一 个 集合 的 节点 ， 
如 图 2-11 所 示 。 该 图 有 两 个 市 点 集合 : 一 个 观众 集合 和 一 个 电视 剧 集合 ， 而 且 只 存在 两 个 
集合 之 间 的 关系 ， 集 合 内 部 不 存在 连接 关系 。 换 言 之 ， 在 图 2-11 的 图 1 中 ， 电 视 剧 彼此 不 
关联 ， 而 只 与 观众 相关 联 。 观 众 彼此 也 不 关联 。 
































Chira 


图 1 图 2 


观众 和 电视 剧 观众 投影 
二 部 图 单 部 图 
关系 权重 = 看 过 的 集 数 关系 权重 = 共同 观看 的 电视 剧 数 量 
2 
4 
30 41 60 
22 
1 3 
图 3 
电视 剧 投影 
单 部 图 


节点 权重 = 活跃 观众 数 
关系 权重 = 观众 共同 观看 的 集 数 











图 2-11; 通常 把 二 部 图 投影 为 单 部 图 以 进行 更 具体 的 分 析 


在 由 观众 和 电视 剧 构成 的 二 部 图 的 基础 上 ， 创 建 了 两 个 单 部 图 投影 : 基 
剧 创建 的 观众 连接 图 (图 2) 和 基于 共同 观众 的 电视 剧 连接 图 (图 3)。 


于 共同 观看 的 电视 
还 可 以 基于 关系 类 





型 进行 过 外， 比如 观看 、 评 分 或 评论 。 


入 影 出 含有 推断 连接 的 单 部 图 是 图 分 析 的 重要 组 成 部 分 。 这 些 投影 类 型 有 助 于 揭示 间接 关 
系 及 其 强度 。 例 如 在 图 2-11 的 图 2 中 ，Bev 和 Ann 只 看 过 一 部 共同 的 电视 剧 ， 而 Bev 和 
Evan 都 看 过 的 有 两 部 。 在 图 3 中 ， 我 们 通过 共同 观众 的 聚合 视图 对 电视 剧 之 间 的 关系 进 
行 了 加 权 。 该 指标 或 相似 度 等 其 他 指标 ， 可 用 于 推断 观看 《太空 堡 垒 卡拉 狄 加 》 和 《生火 
虫 》 的 活动 之 间 存 在 什么 内 在 联系 。 之 后 就 可 以 向 类 似 于 Evan 这 样 (刚刚 看 完 《 强 火 虫 》 
最 后 一 集 ) 的 观众 发 送 推荐 消息 。 
































K 部 图 涉及 的 节点 类 型 数 为 上 ， 例 如 三 部 图 有 3 种 节点 。 这 只 是 对 二 部 图 和 单 部 图 的 扩展 ， 
使 之 用 于 多 节点 类 型 。 现 实 世界 中 的 许多 图 ， 尤 其 是 知识 图 谱 ， 其 大 值 往往 很 大 ， 这 是 因 
为 它们 整合 了 许多 概念 和 信息 类 型 。 以 设计 新 配方 为 例 ， 它 是 将 配方 集 映 射 到 配料 集 再 映 
射 到 化 合 物 ， 然 后 推导 出 关联 大 众 偏 好 的 新 组 合 。 还 可 以 通过 泛 化 来 减少 节点 类 型 的 数量 ， 
将 节点 的 诸多 形式 泛 化 为 一 个 节点 ， 例 如 可 以 把 “菠菜 ”和 “油菜 ” 视 为 “绿叶 蔬菜 。 


















































前 面 介绍 了 几 种 常用 的 图 ， 下 面 介绍 这 些 图 可 以 应 用 的 图 算法 类 型 。 


2.4 图 算法 的 类 型 

下 面 探 究 在 图 算法 中 处 于 核心 地 位 的 3 个 分 析 领 域 。 这 3 个 类 别 分 别 对 应 第 4 章 、 第 5 章 
和 第 6 章 。 

2.4.1 ”路径 查找 


路 径 是 图 分 析 和 图 算法 的 基础 ， 自 此 开始 介绍 具体 的 算法 示例 。 查 找 最 短路 径 是 使 用 图 算 
法 执行 的 相当 频 昆 的 任务 ， 而 且 它 还 是 几 种 分 析 的 先驱 。 最 短路 径 是 跳 数 最 少 或 权重 最 小 
的 志 历 路 径 。 如 果 图 是 有 向 的 ， 它 就 是 指 两 个 节点 之 间 关 系 方向 所 允许 的 最 短路 径 。 





















































路 径 类 型 
平均 最 短路 径 用 于 考察 网 络 的 整体 效率 和 弹性 ， 比 如 了 解 各 个 地 铁 站 之 间 的 平均 距离 ， 
有 时 可 能 还 想 了 解 站 点 间 的 最 远 优化 路 线 ， 比 如 确定 哪些 地 铁 站 之 间 的 距离 最 远 ， 或 
者 站 点 之 间 (即使 选择 最 佳 路 线 ) 的 站 数 最 多 。 对 这 种 情况 ， 我 们 将 使 用 图 的 直径 来 
查找 所 有 节点 对 之 间 的 最 长 路 径 或 最 短路 径 。 











2.4.2 ”中 心性 

中 心性 的 要 点 就 是 了 解 网 络 中 哪个 节点 更 重要 ， 但 是 这 里 所 说 的 “重要 ”是 什么 含义 呢 ? 
人 们 创建 了 不 同类 型 的 中 心性 算法 来 度量 不 同 的 事物 ， 例 如 快速 传播 信息 的 能 力 和 桥接 不 
同 群体 的 能 力 。 本 书 将 重点 讨论 市 点 和 关系 的 组 织 方式 。 











2.4.3 社团 发 现 


连通 性 是 图 论 的 核心 概念 之 一 ， 它 支持 复杂 网 络 分 析 ， 比 如 社团 发 现 。 现 实 世界 中 的 大 多 
数 网 络 或 多 或 少 呈现 出 独立 子 图 这 样 的 子 结构 (通常 是 准 分 形 )。 











连通 度 用 于 发 现 社团 并 且 量 化 分 组 的 质量 。 评 估 图 中 不 同类 型 的 社团 有 助 于 揭示 图 的 结 
构 ， 比 如 中 心 结构 和 层级 结构 ， 也 有 助 于 了 解 某 个 群 组 吸引 或 排斥 其 他 群 组 的 倾向 。 这 些 
方法 用 于 研究 一 些 突 发 现象 ， 例 如 那些 导致 回音 壁 效 应 和 过 滤 气 泡 效 应 的 现象 。 























2.5 ”小结 





图 是 很 直观 的 ， 而 且 它 与 我 们 思考 和 绘制 系统 的 方式 一 致 。 当 理解 了 相关 术语 和 知识 层次 
后 ， 很 快 就 能 掌握 图 的 精髓 。 本 章 介绍 了 后 续 要 用 到 的 概念 、 表 示 方 式 ， 以 及 将 谈 到 的 各 
种 图 。 











图 论 参 考 书目 
车 有 兴趣 学 习 更 多 图 论 相 关 知 识 ， 推 荐 阅读 如 下 入 门 教材 。 
。 Jntroduction to Graph Theory，Richard J. Trudeau 著 ， 这 是 一 本 入 门 书 ， 写 得 很 好 且 
容易 理解 。 
。 《图 论 导 论 (第 5 版 )》 RobinJ Wilson 著 ， 这 是 一 本 入 门 书 ， 图 文 并 茂 。 
Graph Theory and Its Applications, Third Edition, Jonathan L. Gross、Jay Yellen 和 
Mark Anderson 合 著 , 该 书 提供 了 很 多 习题 ,讲解 细致 。 读 者 需要 有 一 定 的 数学 功底 。 











接 下 来 ， 在 深入 研究 如 何在 Apache Spark 和 Neo4j 平台 上 应 用 图 算法 之 前 ， 首 先 了 解 图 处 
理 和 分 析 类 型 。 











第 3 章 
图 平台 和 图 处 理 








本 章 将 简要 介绍 图 处 理 的 各 种 方法 以 及 常用 平台 ， 进 一 步 研究 本 书 所 用 的 两 个 平台 : 
Apache Spark 和 Neo 和 ji， 以 及 它们 的 适用 场景 。 此 外 ， 本 章 还 将 提供 两 个 平台 的 安装 指南 ， 
以 便 为 后 续 几 章 做 好 铺垫 。 


3.1 图 平台 和 图 处 理 的 注意 事项 


图 处 理 具有 一 些 独特 的 性 质 ， 例 如 其 计算 过 程 是 由 结构 驱动 、 全 局 聚焦 的 ， 而 且 很 难 解 
析 。 本 节 将 介绍 图 平台 和 图 处 理 的 一 般 注 意 事 项 。 




















3.1.1 平台 注意 事项 

对 于 图 处 理 ， 纵 向 扩展 和 横向 扩展 哪个 更 好 ， 一 直 存 在 争议 。 是 应 该 使 用 强大 的 多 核 、 大 
内 存 计 算 机 ， 并 且 关 注 高 效 的 数据 结构 和 多 线程 算法 ， 还 是 应 该 在 分 布 式 处 理 框 架 和 与 之 
相关 的 算法 上 投入 精力 呢 ? 




















COST (configuration that outperforms a single thread) 是 一 种 很 有 用 的 评估 方法 ，Frank McSherry、 

Michael Isard 和 Derek Murray 的 论文 “Scalability! But at What COST?” 有 相关 介绍 。COST 

可 用 于 比较 系统 的 可 伸缩 性 和 引入 的 开销 。 其 核心 思想 是 ， 配 置 良 好 的 系统 使 用 优化 的 

算法 和 数据 结构 ， 在 性 能 上 能 超过 当前 通用 的 横向 扩展 解决 方案 。 采 用 这 种 方法 衡量 性 能 

时 ， 并 不 会 出 现 由 于 采用 并 行 处 理 而 掩盖 低 效 率 的 情况 。 将 可 伸缩 性 和 高 效 使 用 资源 的 概 
区 分 开 来 ， 有 助 于 构建 可 直接 按 需 配置 的 平台 。 

















23 


有 些 图 平台 包含 了 高 度 集成 的 解决 方案 ， 优 化 了 算法 、 处 理 和 内 存 检 索 ， 使 之 能 够 紧密 协 
调 工 作 。 


3.1.2 ”处 理 注 意 事项 

处 理 数据 的 方式 有 多 种 ， 例 如 针对 基于 记录 的 数据 ， 可 以 采用 流 处 理 或 批 处 理 ， 抑 或 采用 
MapReduce 方式 ， 而 对 图 数据 而 言 ， 目 前 也 有 一 些 方法 可 将 图 结构 中 的 固有 数据 依赖 整合 
到 处 理 中 。 


口 节点 中 心 式 
这 种 方式 将 节点 作为 处 理 单元 ， 保 存 节 点 的 累加 结果 和 计算 状态 ， 并 通过 消息 将 通信 状 
态 变化 情况 传递 给 其 邻 节点 。 这 种 模型 使 用 现成 的 转换 国 数 可 以 更 简单 地 实现 每 种 算法 。 
口 关系 中 心 式 
这 种 方式 与 节点 中 心 式 模型 有 相似 之 处 ， 但 它 也 可 用 于 子 图 和 序 贯 分 析 。 


口 图 中 心 式 
采用 这 种 方式 的 模型 在 处 理 某 个 子 图 中 的 节点 时 独立 于 其 他 子 图 ， 通 过 消息 传递 与 其 他 
子 图 进行 通信 ( 极 少 )。 


口 遍历 中 心 式 

采用 这 种 方式 的 模型 把 遍历 器 在 图 上 穿行 时 积累 的 数据 用 于 计算 。 

口 算法 中 心 式 

这 种 方式 使 用 各 种 方法 优化 每 个 算法 的 实现 。 这 是 前 述 几 种 模型 的 混合 模式 。 
















































































Pregel 是 由 谷歌 公司 创建 的 一 种 容错 式 并 行 处 理 框 架 ， 以 节点 为 中 心 ， 可 
用 于 分 析 大 型 图 的 性 能 。Pregel 基于 整体 同步 并 行 模型 (bulk synchronous 
parallel model， 以 下 简称 BSP 模型 )， 而 BSP 模型 具有 独特 的 计算 阶段 和 通 
信 阶 段 ， 以 此 简化 并 行 编程 。 

Pregel 在 BSP 模型 之 上 添加 了 一 个 节点 中 心 式 抽 象 层 ， 算 法 可 以 借 此 计算 由 
每 个 节点 的 邻 节 点 通过 消息 传人 的 值 。 每 次 迭代 都 会 执行 一 次 这 样 的 计算 ， 
之 后 可 以 更 新 节点 值 并 向 其 他 节点 发 送 消 息 。 在 通信 阶段 ， 节 点 还 可 以 组 合 
要 传输 的 消息 ， 这 有 助 于 减少 网 络 通信 和 中 。 当 不 再 发 送 新 的 消息 或 达到 某 一 
设 定 边界 后 ， 算 法 执行 结束 。 







































































大 多 数 专用 于 图 的 方法 需要 加 载 整 张 图 以 实现 高 效 的 跨 拓扑 操作 ， 这 是 因为 分 割 和 分 发 图 
数据 会 导致 大 量 数据 传输 ， 造 成 工作 实例 重新 配置 ， 而 这 对 于 很 多 需要 返 代 处 理 全 局 图 结 
构 的 算法 而 言 是 比较 困难 的 。 
































3.2 ”典型 平台 


为 满足 图 处 理 需求 ， 已 经 出 现 了 几 种 平台 。 图 计算 引擎 和 图 数据 库 通常 是 分 离 的 ， 这 就 要 
求 用 户 根据 其 处 理 需 求 来 迁移 数据 。 


口 图 计算 引擎 
图 计算 引擎 是 只 读 的 非 事 务 处理 引 擎 ， 主 要 用 于 高 效 执行 图 的 进 代 分 析 和 对 整 张 图 的 查 
询 。 图 计算 引擎 支持 图 算法 的 各 种 定义 和 处 理 样 式 ， 比 如 节点 中 心 式 方法 (如 Pregel、 
GAS 模型 ) 或 基于 MapReduce 的 方法 (如 PACT)，Giraph、GraphLab、Graph-Engine 
和 Apache Spark 属于 此 类 引擎 。 


口 图 数据 库 
从 事务 处 理 的 背景 来 看 ， 图 数据 库 主要 关注 用 小 型 查询 进行 快速 读 写 ， 通 常 只 涉及 图 的 
一 小 部 分 。 图 数据 库 的 优点 是 操作 稳健 性 和 面向 多 用 户 的 高 并 发 可 伸缩 性 。 






















































































3.2.1 选择 平台 
选择 生产 平台 需要 考虑 很 多 因素 ， 比 如 要 运行 的 分 析 类 型 、 性 能 需求 、 现 有 环境 以 及 团队 
偏好 等 。 本 书 使 用 Apache Spark 和 Neo4j 来 展示 图 算法 ， 因 为 它们 都 具有 一 些 独特 优势 。 


































































































Apache Spark〈 以 下 简称 Spark) 是 一 个 横向 扩展 和 以 节点 为 中 心 的 图 计算 引擎 。 其 流行 计 
算 框架 和 库 支 持 数据 科学 的 多 种 工作 流程 。Spark 平台 适用 于 如 下 场景 。 


。 算法 本 质 上 是 可 并 行 或 可 分 割 的 。 
。 算法 工作 流程 需要 在 多 种 工具 和 多 种 语言 的 环境 中 进行 “多 语言 ”操作 。 
。 分 析 可 以 以 批 处 理 模式 离线 运行 。 

图 分 析 针 对 设 有 转换 成 图 格式 的 数据 。 
团队 需要 自己 编写 和 实现 算法 ， 并 且 具 备 相 关 的 专业 知识 。 
团队 使 用 图 算法 的 频率 不 高 。 
团队 更 喜欢 在 Hadoop 生态 系统 中 保存 所 有 数据 和 分 析 结 果 。 






















































































Neo4j 图 平台 是 图 数据 库 和 算法 中 心 式 处 理 紧 密集 成 的 典范 ， 针 对 图 进行 了 优化 。 该 平 
台 在 构建 基于 图 的 应 用 方面 广 受 欢迎 ， 而 且 提 供 了 与 自 带 图 数据 库 配 套 调 优 的 图 算法 库 。 
Neo4j 适用 于 下 述 场景 。 























。 算法 需要 更 多 运 代 ， 并 且 需 要 良好 的 内 存 局 域 性 。 
。 算法 和 结果 对 性 能 敏感 。 
图 分 析 针 对 的 是 复杂 的 图 数据 ， 或 需要 进行 深度 路 径 记 历 。 

















注 1: GAS 模型 包含 gather-apply-scatter 这 3 个 阶段 。 一 一 译 者 注 
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。 分 析 结 果 与 事务 性 工作 负载 集成 。 

。 结果 用 于 增强 已 有 的 图 。 
困 队 需要 集成 基于 图 的 可 视 化 工具 。 
团队 希望 采用 预 打包 和 提供 支持 的 算法 。 


此 外 ， 有 些 组 织 兼 用 Spark 和 Neo4j 进行 图 处 理 : 将 Spark 用 于 大 规模 数据 集 的 高 层 筛选 
与 预 处 理 以 及 数据 集成 ， 将 Neo4j 用 于 特定 处 理 并 且 与 基于 图 的 应 用 集成 。 


3.2.2 Apache Spark 

Spark 是 用 于 大 规模 数据 处 理 的 图 计算 引擎 。 它 使 用 一 种 名 为 DataFrame 的 抽象 表 来 表示 
和 处 理 以 行列 〈 列 要 指定 名 称 和 类 型 ) 方式 组 织 的 数据 。 该 平台 集成 了 多 种 数据 源 ， 支 持 
Scala、Python 和 及 等 语言 。Spark 支持 多 种 分 析 库 ， 如 图 3-1 所 示 。 它 具备 基于 内 存 的 系 
统 ， 在 运行 时 采用 高 效 分 布 式 计算 图 。 








Spark GraphX 


Streaming GraphFrames 





Apache Spark™ 


图 3-1: Spark 是 一 个 开源 的 分 布 式 通用 集群 计算 框架 ， 包 含 适用 于 各 种 工作 负载 的 模块 


GraphFrames 是 Spark 的 一 个 图 处 理 库 ， 于 2016 年 替代 GraphX， 但 是 它 与 核心 Spark 是 分 
离 的 。GraphFrames 基于 GraphX， 但 是 使 用 DataFrame 作为 底层 数据 结构 。GraphFrames 
支持 Java、Scala 和 Python 等 编程 语言 。2019 年 春 ， 提 案 “Spark Graph: Property Graphs， 
Cypher Queries, and Algorithms” 被 接受 (参见 本 章 “Spark Graph 的 发 展 ” 部 分 的 说 明 )。 
我 们 希望 使 用 DataFrame 框架 和 Cypher 查询 语言 ， 将 许多 图 功能 引入 核心 Spark 项 目 中 。 
此 外 ， 本 书 的 示例 基于 Python API (PySpark) ， 这 是 因为 它 广 受 Spark 数据 科学 家 欢迎 。 

















Spark Graph 的 发 展 
Spark Graph 项 目 是 由 来 自 Databricks 和 Neo4j 的 Apache 项 目 贡 献 者 共同 发 起 的 ， 目 
的 是 在 核心 Spark 项 目的 3.0 版 本 中 增加 对 DataFrame、Cypher 和 基于 DataFrame 的 算 
法 的 支持 。 











Cypher 最 初 是 在 Neo4j 中 实现 的 一 种 声明 式 图 查询 语言 ， 但 是 通过 openCypher 项 目 ， 
它 现 已 被 多 家 数据 库 厂 商 以 及 开源 项 目 Cypher forApache Spark (CAPS) 所 使 用 。 
希望 在 不 久 的 将 来 能 够 使 用 CAPS 加 载 和 查询 图 数据 ， 将 其 作为 Spark 平台 的 集成 部 
件 之 一 。 我们 将 在 Spark Graph 项 目 完成 后 发 布 Cypher 示例 。 

这 些 进展 并 不 会 影响 本 书 所 介绍 的 算法 ， 但 可 能 会 添加 新 的 程序 调用 方式 。 图 算法 的 
底层 数据 模型 、 概 念 和 计算 方式 将 保持 不 变 。 








节点 和 关系 都 可 以 表示 为 DataFrame 对 象 ， 且 每 个 节点 都 有 唯一 的 ID， 而 每 个 关系 都 有 源 
节点 和 目标 节点 。 表 3-1 给 出 了 节点 DataFrame 示例 ， 表 3-2 给 出 了 关系 DataFrame 示例 。 
基于 这 两 个 DataFrame 对 象 的 GraphFrame 包含 下 K 和 SEA 两 个 节点 ， 以 及 一 个 从 JFK 到 
SEA 的 关系 。 


表 3-1: 节点 DataFrame 


id city state 





JFK New York NY 
SEA Seattle WA 


表 3-2: 关系 DataFrame 


src dst delay tripId 
JFK SEA 45 1058923 





节点 DataFrame 必须 具有 id 列 一 一 该 列 的 取 值 用 于 唯一 标识 每 个 节点 。 关 系 DataFrame 必 
须 具 有 src 列 和 dst 列 一 一 这 两 列 的 取 值 描述 该 关系 连接 了 哪些 节点 ， 并 且 应 该 参照 布点 
DataFrame 的 id 列 中 的 记录 。 





可 以 使 用 任何 DataFrame 数据 源 (包括 Parquet、JSON 和 CSV) 来 加 载 节 点 DataFrame 和 
关系 DataFrame， 而 查询 可 以 组 合 使 用 PySpark API 和 Spark SQL 来 进行 描述 。 


GraphFrames 库 还 为 用 户 提 供 了 实现 非 开 箱 即 用 算法 的 扩展 点 。 





安装 Spark 
可 以 从 Apache Spark 网 站 下 载 Spark。 下 载 完 成 后 ， 需 要 安装 以 下 库 才能 通过 Python 执行 
Spark 作业 。 


pip install pyspark graphframes 


然后 执行 以 下 命令 启动 pyspark REPL”: 


注 2: REPL 即 Read-Eval-Print Loop， 是 一 个 简单 的 交互 式 编程 环境 。 一 一 译 者 注 
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export SPARK_VERSION="spark-2.4.0-bin-hadoop2.7" 
./${SPARK_VERSION}/bin/pyspark \ 

--driver-memory 2g \ 

--executor-memory 6g \ 

--packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 


撰写 本 书 时 ，Spark 的 最 新 发 布 版 本 是 Spark-2.4.0-bin-hadoop2.7， 读 者 阅读 本 书 时 情况 可 
能 会 有 变化 。 若 是 如 此 ， 请 确保 正确 更 改 SPARK_VERSION 环境 变量 。 


尽管 应 该 在 计算 机 集群 上 执行 Spark 作业 ， 但 为 了 便于 演示 ， 我 们 仅 在 单机 
上 执行 这 些 作 业 。Bil Chambers 和 Matei Zaharia 所 著 的 《Spark 权威 指南 》 
一 书 涵盖 了 在 生产 环境 中 运行 Spark 的 更 多 内 容 。 











现在 ， 你 已 经 做 好 在 Spark 上 运行 图 算法 的 准备 了 。 


3.2.3 ”Neo4j 图 平台 

Neo4j 图 平台 支持 图 数据 的 事务 处 理 和 分 析 处 理 。 它 提供 了 图 存储 与 计算 功能 以 及 数据 管 
理 与 分 析 工 具 。 该 集成 工具 集 位 于 常见 协议 、API 和 查询 语言 (Cypher) 之 上 ， 针 对 不 同 
用 途 提供 高 效 访问 ， 如 图 3-2 所 示 。 



































数据 分 析 人 员 


事务 处 理 一 加 名 


数据 科学 家 


图 3-2: Neo4j 图 平台 围绕 支持 事务 处 理应 用 与 图 分 析 的 本 地 图 数据 库 构建 


本 书 将 使 用 Neo4j 图 算法 库 。 该 库 以 插件 形式 与 数据 库 一 起 安装 ， 提 供 了 一 个 可 通过 
Cypher 查询 语言 执行 的 用 户 自 定义 程序 集 。 


该 图 算法 库 提 供 了 支持 图 分 析 和 机 器 学 习 工 作 流程 的 并 行 算 法 。 这 些 算法 在 基于 任务 的 并 
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行 计算 框架 上 执行 ， 并 针对 Neo4j 平台 进行 了 优化 。 对 


实现 可 以 纵向 扩展 到 数 百 亿 个 节点 和 关系 。 

















可 以 将 结果 以 元 组 流 和 表格 的 形式 (可 用 作 进 一 步 处 更 








选择 将 结果 作为 节点 属性 或 关系 类 型 高 效 地 回 写 到 数据 库 。 





























等 常规 任务 。 





安装 Neo4j 








于 不 同 规模 的 图 ， 


本 书 还 会 用 到 Neo4j 的 APOC 库 (Awesome Procedures on Cypher)。 
库 由 数 百 个 程序 和 函数 组 成 ， 用 于 辅助 完成 数 所 


的 驱动 表 ) 传输 到 客户 端 。 还 可 以 


有 些 组 织 的 内 部 


APOC 
集成 、 数 据 转换 和 模型 重 构 


开发 人 员 操 作 本 地 Neo4j 数据 库 最 便捷 的 方式 是 采用 Neo4j Desktop， 可 以 从 Neo4j 官网 下 
载 。 安 装 并 启动 Neo4j Desktop 之 后 ， 便 能 以 插件 形式 安装 图 算法 库 和 APOC 库 了 。 在 左 





侧 菜单 中 创建 一 个 项 目 并 选 定 ， 然 后 在 你 想 要 安装 插件 的 数据 库 上 站 














Plugins 选项 卡 中 有 若干 插件 选项 。 单 击 图 算法 和 APOC 相应 的 Install 按钮 即 可 进 和 





参见 图 3-3 和 图 3-4。 





和 击 Manage 按钮 。 在 





了 安装 ， 





月 


Projects + Test 


9 My Project * 加 open Folder ~ 


| MarvelUniverse 


GraphOfThrones Details Logs Terminal Settings 
日 Neo4j ETL 
APOC 
3.3.0.2 


GRAPH ALGORITHMS 
3.3.2.0 


GraphQL 
3.3.0.1 


由 Pl， 








() Open Browser 


Plugins 


Upgrade 


graph algorithms for Neo4j 3.x exposed as Cypher procedures, 


Administration 


The APOC library consists of many (about 300) procedures to help with many different tasks 
in areas like data integration, graph algorithms or data conversion. 


Install 
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图 3-3: 法 库 
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图 3-4: 安装 APOC 库 


Jennifer Reif 在 其 博客 文章 “Explore New Worlds 一 Adding Plugins to Neo4)” 中 详细 介绍 了 
上 述 安 装 过 程 。 现 已 准备 就 绪 ， 稍 后 会 介绍 如 何在 Neo4j 中 运行 图 算法 。 




















3.3 小 结 


前 面 介绍 了 图 分 析 对 研究 现实 网 络 的 重要 性 ， 以 及 图 的 基本 概念 、 分 析 和 处 理 ， 这 些 内 容 
为 理解 如 何 运用 图 算法 黄 定 了 坚实 基础 。 第 4 章 将 通过 Spark 示例 和 Neo4j 示例 来 讲解 如 
何 运 行 图 算法 。 
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路 径 查 找 算法 和 图 搜索 算法 


图 搜索 算法 对 图 的 探究 既 可 以 是 一 般 性 发 现 ， 也 可 以 是 显 式 搜索 。 这 些 算 法 在 图 中 构造 路 
径 ， 但 并 不 要 求 这 些 路 径 的 计算 性 能 最 强 。 本 章 将 介绍 广度 优先 搜索 和 深度 优先 搜索 ， 它 
们 既是 志 历 图 的 基础 ， 也 往往 是 各 种 分 析 的 首要 步骤 。 





路 径 查找 算法 基于 图 搜索 算法 ， 


达 目 的 地 。 这 些 算法 用 于 识别 
由 、 模 拟 博弈 等 。 


探索 节点 之 间 的 路 径 ， 从 某 个 市 点 开始 遍历 关系 ， 直 到 抵 





图 中 的 最 优 路径 ， 可 用 于 物流 规划 、 最 低 成 本 呼叫 或 正路 


有 具体 来 说 ， 本 章 将 介绍 如 下 路 径 查 找 算法 。 


口 最 小 生成 树 算 法 





口 随机 游 走 算法 


口 最 短路 径 算法 以 及 两 个 有 用 的 变 体 〈A* 算法 和 Yen 算法 ) 
用 于 查找 两 个 选 定 节点 之 间 的 最 短路 径 。 


口 所 有 点 对 最 短路 径 算法 和 单 源 最 短路 径 算法 
用 于 查找 所 有 节点 对 之 间 的 最 短路 径 或 从 选 定 节 点 到 其 他 各 节点 的 最 短路 径 。 


用 于 查找 连通 的 树 结构 ， 保 证 从 选 定 市 点 访问 其 他 各 市 点 的 代价 最 小 。 




















这 是 对 机 器 学 习 工 作 流 程 和 其 他 图 算法 都 很 有 用 的 预 处 理 或 采样 步 又 。 




















本 章 将 介绍 这 些 算法 的 运作 原理 ， 并 给 出 相应 的 Spark 示例 和 Neo4j 示例 。 当 算法 仅 在 一 
种 平台 上 可 用 时 ， 则 仅 提 供 一 个 示例 或 说 明 如 何 自 定 义 实现 。 
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图 4-1 展示 了 这 几 种 算法 之 间 的 关键 区 别 ， 表 4-1 是 每 种 算法 及 其 示范 用 例 的 速 查 表 。 





图 搜索 算法 
六 |] Eg 
由 6 


6 Of 由 
oo 















































广度 优先 搜索 深度 优先 搜索 
首先 访问 最 邻近 的 节点 首先 沿 着 各 分 支 进行 搜索 
路 径 查找 算法 
(MB)=8 
(4Q=4 经 D 
(A,D)=1 
昭 关 到 做 日 =5 经 D 
人 (B,0=6 
1 (B,D)=9 经 A 或 C 
最 短路 径 所 有 点 对 最 短路 径 单 源 最 短路 径 最 小 生成 树 
两 个 节点 之 间 的 最 短路 。 ”优化 计算 所 有 节点 到 其 他 ”从 根 节 点 (图 中 为 A) 到 连通 所 有 节点 的 最 短路 径 
径 (如 图 中 的 A 到 C) 各 节点 的 最 短路 径 其 他 各 节点 的 最 短路 径 (图 中 从 A 开 始 ) 
从 根 节点 按照 最 小 累计 权重 遍 ， ”从 任意 已 访问 节点 按照 最 小 累计 
历 至 下 一 个 未 访问 节点 权重 遍历 至 下 一 个 未 访问 节点 
按照 跳 数 
计算 


随机 路 径 查找 算法 


随机 游 走 


提供 一 组 随机 且 按 任意 关系 连接 的 
节点 ， 从 中 随机 选 定 某 些 节点 

















也 称 “ 醉 汉 游 走 ” 
4-1: 路 径 查找 算法 和 图 搜索 算法 
表 4-1: 路 径 查 找 算法 和 图 搜索 算法 总 览 
算法 类 型 作用 示范 用 例 Spo oo 


示例 ”示例 








广度 优先 搜索 算法 ” 按 下 述 原则 遍历 树 结构 : 分 别 探索 最 在 GPS 系统 中 定位 邻 节 点 ， 有 无 
邻近 的 节点 ， 然 后 探索 这 些 节 点 的 次 以 识别 附近 感 兴趣 的 地 点 
级 邻 节 点 














( 续 ) 


Spark Neo4j 
























































算法 类 型 作 用 示范 用 例 未 全 | 条例 

深度 优先 搜索 算法 ” 按 下 述 原 则 遍历 树 结构 ， 在 回 漳 之 前 在 带 有 分 层 选 择 的 博弈 模拟 无 无 
尽 可 能 远 地 探 索 每 个 分 支 中 发 现 最 优 路 径 

最 短路 径 算法 计算 一 对 节点 间 的 最 短路 径 查找 两 地 间 的 行车 方向 有 有 

变 体 : A* 算 法 和 

Yen 算法 

所 有 点 对 最 短路 径 计算 图 中 所 有 节点 对 之 间 的 最 短路 径 。 在 交通 拥堵 时 评估 替代 路 线 有 ”有 

算法 

单 源 最 短路 径 算法 “计算 单个 根 节 点 到 其 他 各 节点 的 最 短 电话 寻 呼 的 最 低 成 本 路 由 “有 








有 
路 径 
计算 构成 一 棵 连通 树 结 构 的 路 径 ， 使 优化 连通 的 路 线 ， 例 如 布线 无 有 
访问 所 有 节点 的 代价 最 小 或 垃圾 回收 

随机 选择 关系 遍历 一 条 指定 规模 的 路 用 于 为 机 器 学 习 扩 充 训 练 数 无 有 

径 ， 返 回 该 路 径 所 经 过 的 节点 集合 据 或 为 图 算法 补充 数据 
首先 看 看 示例 中 要 用 到 的 数据 集 ， 了 解 如 何 将 数据 导入 Spark 和 Neo4j。 对 于 每 种 算法 ， 
书 中 都 先 简要 介绍 ， 然 后 讲解 算法 的 运算 过 程 ， 还 就 何 时 使 用 相应 算法 给 出 指导 ， 最 后 给 
出 使 用 样 例 数 据 集 的 示例 代码 。 


下 面 开始 吧 ! 


ni a i 

4.1 示例 数据 : 交通 图 

所 有 关联 数据 都 包含 节点 之 间 的 路 径 ， 这 正 是 将 搜索 和 路 径 查 找 作 为 图 分 析 起 点 的 原因 。 
交通 数据 集 直 观 地 展现 了 这 种 关系 。 本 章 示 例 采 用 的 图 包含 欧洲 公路 网 的 一 个 子 集 。 相 应 
的 节点 文件 和 关系 文件 (如 表 4-2 和 表 4-3 所 示 ) 见 本 书 配套 文件 。 


表 4-2: transport-nodes.csv 


最 小 生成 树 算法 














随机 游 走 算法 












































id latitude longitude population 
Amsterdam 52.379189 4.899431 821752 
Utrecht 52.092876 5.104480 334176 
Den Haag 52.078663 4.288788 514861 
Immingham 53.61239 -0.22219 9642 
Doncaster 53.52285 =11.13116 302400 
Hoek van Holland ST1.9775 4.13333 9382 
Felixstowe 51.96375 1.3511 23689 
Ipswich S52.05917 1.15545 133384 
Colchester 51.88921 0.90421 104390 
London 51.509865 -0.118092 8787892 
Rotterdam S19225 4.47917 623652 
Gouda 52.01667 4.70833 70939 








路 径 查 找 算法 和 图 搜索 算法 
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表 4-3: transport-relationships.csv 





Sie dst relationship cost 
Amsterdam Utrecht EROAD 46 
Amsterdam Den Haag EROAD 59 
Den Haag Rotterdam EROAD 26 
Amsterdam Immingham EROAD 369 
Immingham Doncaster EROAD 74 
Doncaster London EROAD 277 
Hoek van Holland Den Haag EROAD 27 
Felixstowe Hoek van Holland EROAD 207 
Ipswich Felixstowe EROAD 2 
CoLchester Ipswich EROAD 32 
London Colchester EROAD 106 
Gouda Rotterdam EROAD 25 
Gouda Utrecht EROAD 35 
Den Haag Gouda EROAD 32 
Hoek van Holland Rotterdam EROAD 33 


4-2 展示 了 我 们 要 构造 的 目标 图 。 

















4-2: 交通 图 
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简单 起 见 ， 将 图 4-2 视 为 无 向 图 ， 这 是 因为 城市 之 间 的 大 多 数 道路 是 双向 的 。 由 于 存在 少 
量 单行 道 ， 因 此 如 有 果 按 有 向 图 来 计算 ， 结 果 会 略 有 不 同 ， 但 方法 总 体 相 似 。Spark 和 Neo4j 





























都 支持 对 有 向 图 进行 操作 。 当 希望 使 用 无 向 图 时 〈 例 如 双向 道路 的 情况 








便 方法 来 实现 。 


)， 可 采用 下 述 简 


。 对 于 Spark， 为 transport-relationships.csv 中 的 每 一 行 都 创建 两 个 关系 ， 一 个 从 dst 到 


rc， 另 一 个 从 src 到 dst。 
。 对 于 Neo4j， 每 行 仅 需 创 建 一 个 关系 ， 然 后 在 运行 


了 解 了 这 些 简单 的 建 模 方法 后 














4.1.1 将 数据 导入 Spark 
从 Spark 和 GraphFrames 包 中 导入 所 需 的 包 : 


from pyspark.sql.types import * 
from graphframes import * 





算法 时 忽略 关系 的 方向 。 


下 面 的 函数 在 示例 CSV 文件 的 基础 上 创建 一 个 GraphFrame 对 象 。 


def create_ transport_graph(): 
node_fields = [ 
StructField("id", StringType(), True), 


StructField("latitude", FloatType(), True), 


StructField("longitude", FloatType(), True), 


StructField("population", IntegerType(), True) 


] 


下 面 将 图 从 示例 CSV 文件 加 载 到 Spark 和 Neo4j 中 。 


nodes = spark.read.csv("data/transport-nodes.csv", header=True, 
schema=StructType(node_fields)) 


rels = spark.read.csv("data/transport-relationships.csv", header=True) 
reversed_rels = (rels.withColumn("newSrc", rels.dst) 


.withColumn("newDst", rels.src) 


drop("dst” "ere" 


.withColumnRenamed("newSrc", 
.withColumnRenamed("newDst", 
.Select("src", "dst", "relationship", 


relationships = rels.union(reversed rels) 


return GraphFrame(nodes, relationships) 


"src") 
"dst") 


"cost")) 


加 载 节 点 很 容易 ， 对 于 关系 则 需要 做 一 些 预 处 理 ， 要 将 每 个 关系 创建 两 次 。 


下 面 调用 该 函数 。 


g = create_transport_graph() 





路 和 


笃 查 找 算法 和 





图 搜索 算法 
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4.1.2 ”将 数据 导入 Neo4j 
下 面 介 绍 如 何 将 数据 导入 Neo4j ， 首 先 加 载 节 点 : 


WITH "https://github.com/neo4j-graph-analytics/book/raw/master/data" AS base 
WITH base + "transport-nodes.csv" AS uri 
LOAD CSV WITH HEADERS FROM uri AS row 
MERGE (place:Place {id:row.id}) 
SET place.latitude = toFLoat(row.Latitude) ， 
place.longitude = toFLoat(row.Latitude) ， 
place.population = toInteger(row.population) 


然后 加 载 关系 : 


WITH "https://github.com/neo4j-graph-analytics/book/raw/master/data/" AS base 
WITH base + "transport-relationships.csv" AS uri 

LOAD CSV WITH HEADERS FROM uri AS row 

MATCH (origin:Place {id: row.src}) 

MATCH (destination:Place {id: row.dst}) 

MERGE (origin)-[:EROAD {distance: toInteger(row.cost)}]->(destination) 





虽然 其 中 存储 的 是 有 向 关系 ， 但 稍 后 在 执行 算法 时 将 忽略 方向 。 


4.2 广度 优先 搜索 


广度 优先 搜索 (breadth first search，BFS) 是 一 个 基本 的 图 遍历 算法 。 它 从 选 定 节点 出 发 ， 
首先 探索 其 一 跳 范 围 内 的 所 有 邻 节点 ， 之 后 访问 其 两 跳 范 围 内 的 所 有 和 邻 节点 ， 以 此 类 推 。 









































1959 年 ，Edward FE Moore 首次 提出 该 算法 ， 他 使 用 该 算法 找到 了 走出 迷宫 的 最 短路 径 。 
1961 年 ，C. Y. Lee 将 其 扩展 为 一 种 线路 路 由 算法 ， 参 见 其 论文 “An Algorithm for Path 


Connections and Its Applications 。 

















广度 优先 搜索 算法 常用 作 其 他 面向 目标 算法 的 基础 ， 例 如 最 短路 径 算法 、 连 通 分 量 算法 和 
接近 中 心性 算法 ' 等 。 它 还 可 以 用 于 查找 节点 间 的 最 短路 径 。 














| 




















图 4-3 展示 了 当 从 荷兰 城市 Den Haag (海牙 ) 开始 执行 广度 优先 搜索 时 ， 访 问 交 通 
节点 的 顺序 。 城 市 名 称 旁 的 数字 代表 访问 该 节点 的 顺序 。 


各 个 


注 1: closeness centrality， 也 译作 亲密 中 心性 。 一 一 译 者 注 




















图 4-3: 从 Den Haag 开始 执行 广度 优先 搜索 ， 节 点 中 的 数值 表示 遍历 次 序 


首先 访问 Den Haag 的 所 有 直接 邻 节 点 ， 然 后 访问 这 些 节 点 的 邻 节 点 ， 再 访问 邻 节 点 的 邻 
市 点 ， 直 到 遍历 完毕 所 有 关系 为 止 。 


使 用 Spark 实 现 广 度 优先 搜索 


在 用 Spark 实现 广度 优先 搜索 算法 时 ， 可 根据 节点 之 间 的 关系 数 ( 跳 数 ) 来 查找 最 短路 径 。 
可 以 显 式 命名 目标 节点 或 添加 要 满足 的 条 件 。 


举例 来 说 ， 可 以 使 用 bfs 函数 查找 第 一 个 人 口 介 于 10 万 和 30 万 之 间 的 中 型 城市 (依据 欧 
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训 标 准 )。 先 看 看 哪些 城市 的 人 口 符 合 这 个 条 件 : 


(g.vertices 
.filter("population > 100000 and population < 300000") 
.sort("population") 
.Show()) 

















输出 结果 如 下 所 示 : 


id latitude longitude population 
Colchester 51.88921 0.90421 104390 
Ipswich 52.05917 1.15545 133384 

















只 有 两 个 城市 满足 条 件 ， 我 们 希望 基于 广度 优先 搜索 能 够 首先 到 达 Ipswich 〈 伊 普 斯 威 奇 )。 















































以 下 代码 用 于 查找 从 Den Haag 到 达 一 个 中 型 城市 的 最 短路 径 。 











from_expr = "id='Den Haag 
to_expr = "population > 100000 and population < 300000 and id <> 'Den Haag 
result = g.bfs(from expr, to_expr) 





result 对 象 仿 有 描述 两 个 城市 之 间 各 个 市 点 和 关系 的 列 。 运 行 以 下 代码 来 查看 返回 的 各 列 。 





print(result.columns) 

















输出 结果 如 下 : 
['from', 'e0', 'v1i', 'el', 'v2', 'e2', 'to'] 


以 e 开头 的 列 代 表 关 系 ( 边 )， 而 以 v 开头 的 列 代表 节点 (顶点 )。 我 们 仅 对 节点 感 兴趣 ， 
因此 从 结果 DataFrame 中 过 滤 以 e 开头 的 列 。 





columns = [column for coLumn in result.columns if not column.startswith("e")] 
result.select(columns).show() 





在 PySpark 中 运行 这 段 代 码 ， 结 果 如 下 所 示 : 














from v1 v2 to 





[Den Haag, 52.078... [Hoek van Holland... [Felixstowe, 51.9... [Ipswich, 52.0591... 


正如 所 愿 ，bfs 函数 返回 了 Ipswich。 当 查找 到 第 一 个 匹配 项 时 ， 该 函数 就 满足 条 件 了 ， 如 
图 4-3 所 示 ， 在 Colchester 之 前 先 计算 出 Ipswich。 


4.3 深度 优先 搜索 


深度 优先 搜索 (depth first search，DFS) 是 另 一 个 基本 的 图 遍历 算法 。 它 从 选 定 节点 出 发 ， 
选择 该 节点 的 一 个 邻 节 点 ， 然 后 在 回调 之 前 尽 可 能 沿 着 该 路 径 遍 历 。 











深度 优先 搜索 算法 最 初 由 法 国 数学 家 Charles Pierre Tréemaux 提出 ， 用 作 求 解 迷 宫 的 一 种 策 
略 。 在 场景 建 模 中 模拟 可 能 路 径 时 ， 它 是 一 种 很 有 用 的 工具 。 


图 4-4 展示 了 从 Den Haag 开始 执行 深度 优先 搜索 ， 访 问 交 通 图 中 各 节点 的 顺序 。 

















图 4-4: 从 Den Haag 开始 执行 深度 优先 搜索 ， 节 点 中 的 数值 表示 遍历 次 序 


请 注意 ， 与 广度 优先 搜索 相 比 ， 节 点 的 顺序 有 很 大 的 不 同 。 对 于 深度 优先 搜索 ， 我 们 从 
Den Haag 开始 遍历 到 Amsterdam (阿姆斯特丹 ) ， 根 本 不 需要 回溯 就 能 到 达 图 中 的 其 他 各 
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如 前 所 述 ， 搜 索 算法 为 图 的 遍历 黄 定 了 基础 ， 下 面 看 看 路 径 查找 算法 ， 它 根据 跳 数 或 
权重 来 查找 代价 最 小 的 路 径 。 权 重 可 以 是 任何 可 度量 的 东西 ， 比 如 时 间 、 距 离 、 容 量 或 





两 种 特殊 的 路 径 
图 分 析 中 有 两 种 特殊 的 路 径 值得 注意 。 第 1 种 是 欧 拉 路 径 ， 即 每 个 关系 恰好 只 被 访问 
一 次 。 第 2 种 是 哈密 顿 路 径 ， 即 每 个 节点 恰好 只 被 访问 一 次 。 一 条 路 径 既 可 以 是 欧 拉 
路 径 ， 也 可 以 是 哈密 顿 路 径 ， 而 且 如 果 在 同一 节点 开始 和 结束 ， 则 可 以 称 其 为 环 或 回 
路 。 图 4-5 做 了 直观 的 对 比 。 


欧 拉 环 哈密 顿 环 欧 拉 环 且 哈密 顿 环 
且 非 哈密 顿 环 且 非 欧 拉 环 





访问 每 个 关系 一 次 访问 每 个 节点 一 次 
(允许 重复 节点 ) (允许 重复 关系 ) 


4-5: 欧 拉 环 和 哈密 顿 环 具有 特殊 的 历史 意义 





第 1 章 中 的 “ 哥 尼 斯 堡 七 桥 ” 问 题 实际 上 就 是 搜索 一 个 欧 拉 环 。 很 容易 理解 如 何 将 其 
应 用 于 引导 扫 雪 车 和 邮件 投递 这 样 的 线路 搜索 场景 。 然 而 ， 也 有 一 些 算 法 利用 欧 拉 路 
径 处 理 树 结构 中 的 数据 ， 而 且 从 数学 角度 来 看 要 比 研究 其 他 类 型 的 环 更 容易 。 


哈密 顿 环 最 广为人知 的 就 是 它 与 旅行 商 问 题 (traveling salesman problem，TSP) 的 关 
系 ， 该 问题 是 :“ 对 于 旅行 商 而 言 ， 访 问 每 个 指定 城市 并 返回 原 城 市 的 最 短路 径 是 什 
么 ? ”虽然 这 看 起 来 和 欧 拉 环 类 似 ， 但 是 TSP 对 于 近似 替代 方案 的 计算 更 精确 。 它 广 
泛 应 用 于 各 种 规划 、 物 流 和 优化 问题 中 。 











下 万 二 4 六 
4.4 ”最短 路径 算法 
最 短路 径 算法 用 于 计算 一 对 节点 之 间 的 最 短 (加 权 ) 路 径 。 由 于 可 以 实时 运行 ， 因 此 它 对 
用 户 交互 和 动态 工作 流 非常 有 用 。 








路 径 查 找 的 历史 可 以 追溯 到 19 世纪 ， 它 被 视 为 经 典 的 图 论 问题 。 在 20 世纪 50 年 代 早期 ， 
它 的 作用 凸显 出 来 ， 被 应 用 于 替代 路 径 选 择 ， 也 就 是 当 最 短路 径 被 阻塞 时 查找 第 2 条 最 短 


























路 径 。1956 年 ，Edsger Dijkstra 提出 了 其 中 最 著名 的 一 种 算法 。 


Edsger Dijkstra 的 最 短路 径 算法 首先 查找 从 起 始 市 点 到 与 其 直接 连接 的 市 点 的 最 小 权重 关 
系 。 该 算法 追踪 这 些 权 重 并 移动 到 “最 近 ” 的 节点 ， 然 后 针对 当前 节点 执行 同一 计算 ， 但 
是 现在 的 权重 是 从 起 始 节点 起 算 的 累计 值 。 算 法 继续 执行 ， 计 算 一 条 累计 权重 “曲线 ， 
总 是 选择 累计 权重 最 小 的 路 径 前 进 ， 直 至 到 达 目 标 节 点 为 止 。 























在 图 分 析 中 描述 关系 和 路 径 时 使 用 了 权重 、 人 代价、 距离 和 跳 等 术语 。 “权重 ” 
是 关系 的 某 一 特定 性 质 的 数值 型 取 值 。 “代价 ”的 用 法 与 之 类 似 ， 但 更 常 月 
于 考察 路 径 的 总 权重 。 
“距离 ”在 算法 中 通常 用 于 表示 节点 对 之 间 的 遍历 代价 ， 而 且 并 不 要 求 是 实 
际 的 距离 。“ 跳 ”通常 用 来 表示 两 个 节点 之 间 的 关系 数量 。 有 时 会 组 合 使 用 
这 些 词 ， 比 如 “到 达 伦 敦 的 距离 为 5 跳 ” 或 “ 那 是 这 段 距离 的 最 小 代价 ”。 














ma 






































4.4.1 何 时 使 用 最 短路 径 算法 

基于 跳 数 或 加 权 关 系 值 ， 使 用 最 短路 径 算法 可 以 找到 节点 对 之 间 的 最 优 路 线 ， 例 如 它 可 以 
实时 求解 分 离 度 以 及 点 与 点 之 间 的 最 短 距 离 或 最 经 济 的 路 线 ， 也 可 以 使 用 该 算法 直接 探 察 
特定 节点 之 间 的 连通 情况 。 


示范 用 例如 下 。 


查找 两 地 间 的 行进 方向 。 像 谷歌 地 图 之 类 的 互联 网 地 图 工具 可 以 使 用 最 短路 径 算法 (或 

类 似 变 体 ) 提供 驾驶 导航 服务 。 

找 出 社交 网 络 中 人 与 人 之 间 的 分 离 度 ， 比 如 当 你 在 LinkedIn 上 查看 某 人 的 资料 时 ， 
会 显示 你 们 之 间 相 隔 多 少 人 ， 并 列 出 双方 的 共有 联系 人 。 

根据 某 个 演员 和 Kevin Bacon 共同 出 演 的 电影 来 查找 他 们 之 间 的 距离 ( 贝 肯 数 )， 在 

Oracle of Bacon 网 站 上 可 以 找到 相关 示例 。Paul Erd6s 是 20 世纪 最 杰出 的 数学 家 之 一 ， 

Erd5s Number 项 目 基于 人 们 与 Paul Erd6s 的 合作 关系 提供 了 一 种 类 似 的 图 分 析 方 法 。 





























加 








Dijkstra 算法 并 不 支持 负 的 权重 。 该 算法 假设 向 路 径 添加 关系 永远 不 会 使 路 
径 变 短 一 一 采用 负 的 权重 将 违背 该 假设 。 


4.4.2 ”使 用 Neo4j 实 现 最 短路 径 算 法 
Neo4j 图 算法 库 内 置 了 一 个 程序 ， 可 用 于 计算 无 权 最 短路 径 和 加 权 最 短路 径 。 首 先 介 绍 如 
何 计算 无 权 最 短路 径 。 











路 径 查 找 算法 和 图 搜索 算法 | 41 





为 了 让 N 
明 在 执 和 





MATC 


CALL 
YIEL 


Neo4j 的 所 有 最 短路 径 算 法 都 假定 底层 图 是 无 向 的 。 可 以 通过 传递 参数 
direction: "OUTGOING" 或 direction: "INCOMING" 来 重新 设 定 。 





eo4j 的 最 短路 径 算法 忽略 权重 ， 需 要 将 nutl 作为 第 3 个 参数 传递 给 该 程序 ， 以 表 
J 算法 时 不 考虑 权重 ， 然 后 算法 会 将 每 个 关系 的 默认 权重 设 为 1.0: 





H (source:Place {id: "Amsterdam"}), 

(destination:Place {id: "London"}) 
algo.shortestPath.stream(source, destination, null) 
D nodeId，cost 








RETURN aLgo.getNodeById(nodeId) .id AS place, cost 
该 查询 的 返回 结果 如 下 所 示 : 
place cost 
Amsterdam 0.0 
Immingham 1.0 
Doncaster 2.9 
London 3.0 


其 中 的 cost 值 是 关系 (或 跳 ) 的 累计 总 数 ， 这 与 我 们 在 Spark 中 使 用 广度 优先 搜索 得 到 的 


路 径 相同 。 
还 可 以 编写 一 些 Cypher 后 处 理 代 码 来 计算 该 路 径 的 总 距离 。 以 下 程序 计算 最 短 无 权 路 径 ， 





然后 得 到 该 路 径 的 实际 代价 。 


MATCH (source:Place {id: "Amsterdam"}), 


CALL 


(destination:Place {id: "London"}) 
algo.shortestPpath.stream(source, destination, null) 


YIELD nodeId，cost 


WITH 


COLLect(aLgo.getNodeById(nodeId)) AS path 


UNWIND range(0, size(path)-1) AS index 


WITH 
WITH 


WITH 


path[index] AS current, path[index+1] AS next 
current, next, [(current)-[r:EROAD]-(next) | r.distance][0] AS distance 


collect({current: current, next:next, distance: distance}) AS stops 


UNWIND range(0, size(stops)-1) AS index 


WITH 


stops[index] AS location, stops, index 


RETURN location.current.id AS place, 


如 果 感 
cost 值 。 


reduce(acc=0.0, 
distance in [stop in stops[0..index] | stop.distance] | 
acc + distance) AS cost 


觉 以 上 代码 不 好 理解 ， 请 注意 ， 此 则 的 技巧 在 于 如 何 传 输 数 据 以 计算 整 条 路 径 的 
当 需 要 累计 路 径 代 价 时 ， 牢 记 这 一 点 非常 有 用 。 











该 查询 的 返回 结果 如 下 所 示 : 





place cost 
Amsterdam 0.0 
Immingham 369.0 
Doncaster 443.0 
London 720.0 


4-6 显示 了 从 Amsterdam 到 London 的 无 权 最 短路 径 ， 该 路 线 通 过 的 城市 最 少 ， 总 代价 
为 720 千 米 。 

















4-6: Amsterdam 和 London 之 间 的 无 权 最 短路 径 





对 于 地 铁 系 统 这 样 的 应 用 场景 ， 选 择 一 条 经 过 市 点 数 最 少 的 线路 会 非常 有 用 ， 这 是 因为 对 
乘客 搭乘 而 言 ， 站 点 数量 越 少 越 好 ， 然 而 在 导航 应 用 场景 中 ， 我 们 可 能 更 关心 最 短 加 权 路 
径 的 总 代价 。 





4.4.3 ”使 用 Neo4j 实 现 加 权 最 短路 径 算 法 
可 以 执行 加 权 最 短路 径 算法 查找 Amsterdam 和 London 之 间 的 最 短路 径 ， 如 下 所 示 : 
MATCH (source:Place {id: "Amsterdam"}), 


(destination:Place {id: "London"}) 
CALL algo.shortestPath.stream(source, destination, "distance") 


YIELD nodelId, cost 
RETURN algo.getNodeById(nodelId).id AS place, cost 


传递 给 该 算法 的 参数 有 以 下 3 项 。 


口 Source 


最 短路 径 搜索 的 起 始 节 点 。 
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口 destination 
最 短路 径 的 终止 节点 。 


口 distance 


表示 节点 对 之 间 遍 历代 价 的 关系 性 质 名 称 。 


这 里 的 代价 是 两 地 间 的 千 米 数 。 该 查询 的 返回 结果 如 下 所 示 : 








place cost 
Amsterdam 0.0 

Den Haag 59.0 
Hoek van Holland 86.0 
Felixstowe 293.0 
Ipswich 315.0 
Colchester 347.0 
London 453.0 


最 快 的 路 线 是 经 过 Den Haag、Hoek van Holland (荷兰 角 港 )、Felixstowe (费力 克 斯 托 )、 
Ipswich 和 Colchester ( 柯 彻 斯 特 ) 。 表 中 的 cost 列 给 出 了 穿行 各 城市 的 累计 代价 。 首 先 从 
Amsterdam 到 Den Haag， 代 价 是 59 千 米 ， 然 后 从 Den Haag 到 Hoek van Holland， 累 计 代 
价 为 86 千 米 ， 以 此 类 推 。 最 后 ， 从 Colchester 到 达 London 的 总 代价 是 453 千 米 。 





记 住 ， 无 权重 最 短路 径 的 总 代价 为 720 千 米 ， 而 在 计算 最 短路 径 时 如 果 考 虑 权重 ， 可 以 节 
省 267 千 米 。 


4.4.4 使 用 Spark 实 现 加 权 最 短路 径 算 法 


4.2 市 


节 探 讨 了 如 何 查找 两 个 节点 之 间 的 最 短路 径 。 该 最 短路 径 是 基于 跳 数 的 ， 这 与 最 短 加 


权 路 径 不 同 ， 后 者 是 指 城市 间 总 的 最 短 距 离 。 


如 果 要 查找 最 短 加 权 路 径 (在 本 例 中 是 距离 最 短 )， 就 要 用 到 cost 性 质 ， 它 可 用 于 多 种 加 
权 操 作 。 但 是 该 选项 在 GraphFrames 中 并 非 开 箱 即 用 ， 因 此 需要 使 用 aggregateMessages 
框架 编写 自 定 义 的 最 短 加 权 路 径 算法 。 本 书 的 大 多 数 Spark 算法 示例 直接 调用 库 中 的 算法 ， 
但 是 也 可 以 选择 编写 自 定 义 函 数 。 关 于 aggregateMessages 的 更 多 内 容 ， 参 见 GraphFrames 
用 户 指南 的 “Message passing via AggregateMessages” 部 分 。 











如 果 可 用 ， 建 议 利 用 已 有 的 、 经 过 测试 的 库 。 自 己 编写 函数 (特别 是 较 复杂 
的 算法 )， 需 要 深入 理解 数据 和 计算 原理 。 
应 把 下 面 的 示例 视 为 一 个 参考 实现 ， 在 运行 较 大 规模 的 数据 集 之 前 需要 进行 
优化 。 如 果 对 编写 自 定义 函数 不 感 兴趣 ， 可 跳 过 本 例 。 

















在 编写 


自 定义 函数 之 前 ， 先 导入 要 用 到 的 一 些 库 : 





from graphframes.lib import AggregateMessages as AM 
from pyspark.sqL import functions as F 














AggregateMessages 模块 是 GraphFrames 库 的 一 部 分 ， 其 中 包含 一 些 很 有 用 的 辅助 函数 。 








下 面 编 





写 自 定义 国 数 。 首 先 创建 一 个 用 户 自 定义 函 数 ， 用 它 构 建 源 节点 和 目标 节点 之 间 的 








路 径 : 


add_path_udf = F.udf(Lambda path, id: path + [id]，ArrayType(StringType())) 


然后 定义 主 函数 ， 用 它 计 算 从 源 市 点 开始 的 最 短路 径 ， 当 访问 到 目标 市 点 时 就 立即 返回 。 





def shortest_ path(g, origin, destination, column_name="cost"): 


if g.vertices.filter(g.vertices.id == destination).count() == 0: 
return (spark.createDataFrame(sc.emptyRDD(), g.vertices.schema) 
.withColumn("path", F.array())) 


vertices = (g.vertices.withColumn("visited", F.lit(False)) 
.withColumn("distance", F.when(g.vertices["id"] == origin, 0) 
.otherwise(float("inf"))) 
.withColumn("path", F.array())) 
cached_vertices = AM.getCachedDataFrame(vertices) 
g2 = GraphFrame(cached _ vertices, g.edges) 


while g2.vertices.filter('visited == False').first(): 
current_node id = g2.vertices.filter('visited == False').sort 
("distance").first().id 


msg_distance = AM.edge[coLumn_name] + AM.src['distance'] 
msg_path = add_path_udf(AM.src["path"], AM.src["id"]) 
msg_for_dst = F.when(AM.src['id'] == current_node_id, 
F.struct(msg_distance, msg_path)) 
new_distances = g2.aggregateMessages(F.min(AM.msg).alias("aggMess"), 
sendToDst=msg_for_dst) 


New_visited col = F.when( 
g2.vertices.visited | (g2.vertices.id == current_node id), 
True).otherwise(False) 
new_distance_coL = F.when(new_distances["aggMess"].isNotNull() & 
(new_distances.aggMess["col1"] 
< g2.vertices.distance), 
new_distances.aggMess["col1"]) 
.Otherwise(g2.vertices.distance) 
new_path_col = F.when(new_distances["aggMess"].isNotNull() & 
(new_distances.aggMess["col1"] 
< g2.vertices.distance), new_distances.aggMess["col2"] 
.Cast("array<string>")).otherwise(g2.vertices.path) 


new_vertices = (g2.vertices.join(new_distances, on="id", 
how="left_outer") 
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.drop(new_distances["id"]) 
.withColumn("visited", new_visited_col) 
.withColumn("newDistance", new_distance_col) 
.withColumn("newPath", new_path_col) 
.drop("aggMess", "distance", "path") 
.withColumnRenamed('newDistance', 'distance') 
.withColumnRenamed('newPath' , 'path')) 
cached_new_vertices = AM.getCachedDataFrame(new_vertices) 
g2 = GraphFrame(cached_new_vertices, g2.edges) 
if g2.vertices.filter(g2.vertices.id == destination).first().visited: 
return (g2.vertices.filter(g2.vertices.id == destination) 
.withColumn("newpath", add_path_udf("path", "id")) 
.drop("visited", "path") 
.withColumnRenamed("newpath", "path")) 
return (spark.createDataFrame(sc.emptyRDD(), g.vertices.schema) 
.withColumn("path", F.array())) 











如 果 在 函数 中 保存 了 对 DataFrame 对 象 的 引用 ， 就 需要 使 用 AM.getCached- 
DataFrame 函数 缓存 它们 ， 否 则 在 执行 过 程 中 会 出 现 内 存 泄漏 。 在 shortest_ 
path 函数 中 ， 使 用 该 函数 绥 存 vertices 和 new_vertices 这 两 个 DataFrame 
对 象 。 




















如 果 想 查找 Amsterdam 和 Colchester 之 间 的 最 短路 径 ， 可 按 如 下 方式 调用 该 函数 : 


result = shortest_path(g, "Amsterdam", "Colchester", "cost") 
result.select("id", "distance", "path").show(truncate=False) 

















返回 结果 如 下 所 示 : 


id distance path 





Colchester 347.0 [Amsterdam, Den Haag, Hoek van Holland, Felixstowe, Ipswich, Colchester] 


从 Amsterdam 到 Colchester 的 最 短路 径 全 长 347 千 米 ， 途 经 Den Haag、Hoek van Holland、 
Felixstowe 和 Ipswich。 相 比 之 下 ， 使 用 深度 优先 搜索 算法 计算 出 的 最 短路 径 〈 按 地 点 之 间 
的 关系 数 ) 经 过 Immingham、Doncaster 和 London ( 见 图 4-4)。 


4.4.5 ”最 短路 径 算 法 的 变 体 : A* 算 法 
A* 最 短路 径 算 法 在 Dijkstra 算法 的 基础 上 进行 了 改进 ， 查 找 最 短路 径 的 速度 更 快 。 为 了 便 
于 确定 下 一 步 要 探索 的 路 径 ， 该 算法 允许 在 启发 式 函 数 中 附加 额外 信息 。 








该 算法 由 Peter Hart、Nils Nilsson 和 Bertram Raphael 提出 ， 他 们 于 1968 年 发 表 论文 “A Formal 
Basis for the Heuristic Determination of Minimum Cost Paths” 并 在 其 中 阐述 了 该 算法 。 











在 运行 过 程 中 ，A* 算法 在 主 循 环 的 每 次 迭代 中 都 会 判定 要 扩展 哪些 路 径 。 通 过 估计 到 达 
目标 节点 剩余 路 径 的 (启发 式 ) 代价 ， 算 法 可 以 实现 这 一 过 程 。 








对 佑 计 路 径 代 价 采用 的 启发 式 方法 要 深入 思 芳 。 低 估 路 径 的 代价 虽然 会 将 一 
些 本 可 以 消除 的 路 径 包 含 进来 ， 但 是 结果 仍然 准确 ， 然 而 ， 如 果 在 启发 式 方 
法 中 高 估 路 径 代价 ， 就 可 能 跳 过 本 应 该 计算 的 实际 较 短 的 路 径 (错误 地 估计 
为 较 长 路 径 )， 进 而 导致 结果 不 准确 。 





























A* 算法 的 路 径 选 择 就 是 要 使 下 述 函 数 最 小 化 : 
f(n) = g(n) + h(n) 
其 中 ， 


。 g(n) 是 从 起 始 节点 到 节点 n 的 路 径 代 价 ， 
。 h(n) 是 从 节点 mn 到 目标 市 点 的 路 径 代价 估计 ， 通 过 启发 式 函 数 计算 。 




















在 Neo4j 实现 中 ， 采 用 地 理 空 间距 离 进行 启发 式 计算 。 在 示例 交通 数据 集 
中 ， 启 发 式 函 数 用 到 了 每 个 地 点 的 经 纬度 。 





使 用 Neo4j 实现 A* 算法 
下 述 查 询 执行 A* 算法 查找 Den Haag 和 London 之 间 的 最 短路 径 。 
MATCH (source:Place {id: "Den Haag"}), 
(destination:Place {id: "London"}) 
CALL algo.shortestPpath.astar.stream(source, 
destination, "distance", "latitude", "longitude") 


YIELD nodeId, cost 
RETURN algo.getNodeById(nodelId).id AS place, cost 


传递 给 该 算法 的 参数 如 下 。 


DD source 


最 短路 径 搜索 的 起 始 节 点 。 


口 destination 


最 短路 径 搜索 的 终止 节点 。 





口 distance 





口 Latitude 
表示 每 个 节点 纬度 的 节点 性 质 名 称 ， 在 地 理 空 间 局 发 式 计 算 中 使 用 。 








DD longitude 
表示 每 个 节点 经 度 的 节点 性 质 名 称 ， 在 地 理 空 间 局 发 式 计 算 中 使 用 。 

















表示 过 历 节 点 对 之 间 路 径 代价 的 关系 性 质 名 称 。 这 里 的 代价 是 指 两 个 地 点 之 间 的 千 米 数 。 
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place cost 
Den Haag 0.0 

Hoek van Holland 27.0 
Felixstowe 234.0 
Ipswich 256.0 
Colchester 288.0 
London 394.0 











结果 与 使 用 最 短路 径 算 法 的 相同 ， 但 对 于 更 复杂 的 数据 集 而 言 ， 由 于 需要 计算 的 路 径 更 
少 ， 因 此 A* 算法 速度 更 快 。 


4.4.6 “最短 路径 算法 的 变 体 : Yen 的 [最 短路 径 算法 

Yen 的 上 最 短路 径 算法 (简称 Yen 算法 ) 与 最 短路 径 算 法 类 似 ， 但 是 它 并 不 仅仅 查找 两 对 
节点 之 间 的 最 短路 径 ， 它 还 计算 了 第 二 最 短路 径 、 第 三 最 短路 径 等 ， 直 到 最 短路 径 的 第 
-1 个 偏差 值 。 











Jin Y. Yen 于 1971 年 提出 该 算法 ， 并 在 论文 “Finding the K Shortest Loopless Paths in a Network” 
中 做 了 系统 阐述 。 当 查找 绝对 最 短路 径 并 非 唯 一 目标 时 ， 用 该 算法 可 获取 替代 路 径 。 当 需 
要 一 个 以 上 的 备 选 计 划 时 ， 该 算法 非常 有 用 。 




















使 用 Neo4j 实现 Yen 算法 
下 面 的 查询 执行 Yen 算法 来 查找 Gouda (高 达 ) 和 Felixstowe 之 间 的 最 短路 径 。 





























MATCH (start:Place {id:"Gouda"}), 
(end:Place {id:"Felixstowe"}) 
CALL algo.kShortestPaths.stream(start, end, 5, "distance") 
YIELD index, nodelds, path, costs 
RETURN index, 
[node ;in aLgo.getNodesById(nodeIds[1..-1]) | node.id] AS via， 
reduce(acc=0.0, cost in costs | acc + cost) AS totalCost 


传递 给 该 算法 的 参数 如 下 。 
口 start 


最 短路 径 搜索 的 起 始 节 点 。 


口 end 
最 短路 径 搜 索 的 终止 节点 。 





口 5 
最 多 要 查找 的 最 短路 径 数目 。 





口 distance 


表示 遍历 市 点 对 之 间 路 径 代 价 的 关系 性 质 名 称 ， 这 里 的 代价 是 指 两 地 间 的 千 米 数 。 


获得 最 短路 径 后 ， 查 找 每 个 节点 ID 所 对 应 的 节点 ， 然 后 从 节点 集合 中 筛选 出 起 始 节点 和 
终止 市 点 。 


运行 该 程序 ， 结 果 如 下 所 示 : 








index via totalCost 
0 [Rotterdam, Hoek van Holland] 265.0 
1 [Den Haag, Hoek van Holland] 266.0 
2 [Rotterdam, Den Haag, Hoek van Holland] 285..0 
3 [Den Haag, Rotterdam, Hoek van Holland] 298.0 
4 [Utrecht, Amsterdam, Den Haag, Hoek van Holland] 374.0 


4-7 展示 了 Gouda 和 Felixstowe 之 间 的 最 短路 径 。 


NEXT NEXT 


4-7: Gouda 和 Felixstowe 之 间 的 最 短路 径 


对 比 总 代价 排序 结果 会 发 现 图 4-7 中 的 最 短路 径 很 有 趣 。 它 表明 ， 有 了 时 可 能 需要 考虑 多 条 
最 短路 径 或 其 他 参数 。 在 本 例 中 ， 第 二 短 的 路 线 只 比 最 短 的 路 线 长 1 千 米 。 如 果 更 喜欢 游 
览 风景 ， 可 能 会 选择 稍 长 一 点 的 路 线 。 


= 从 Re 
4.5 所 有 点 对 最 短路 径 算法 
所 有 点 对 最 短路 径 算法 (all pairs shortest path algorithm，APSP algorithm ) 计算 所 有 节点 对 
之 间 的 最 短 (加 权 ) 路 径 。 它 比 对 图 中 每 对 节点 分 别 运行 单 源 最 短路 径 算法 更 高 效 。 

















所 有 点 对 最 短路 径 算 法 进一步 优化 了 运算 过 程 ， 它 持续 追踪 距离 的 计算 并 且 并 行 处 理 各 市 
点 。 当 计算 当前 节点 到 未 经 过 节点 的 最 短路 径 时 ， 可 以 复 用 这 些 已 知 距 离 。 可 以 结合 下 一 
市 的 示例 更 好 地 理解 该 算法 的 工作 原理 。 





























有 些 节 点 对 之 间 可 能 彼此 无 法 访问 ， 这 意味 着 这 些 节 点 之 间 没 有 最 短路 径 。 
该 算法 不 返回 这 些 节 点 对 间 的 距离 。 
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4.5.1 近 观 所 有 点 对 最 短路 径 算 法 
按照 运算 步 又 的 顺序 很 容易 理解 所 有 点 对 最 短路 径 算法 的 计算 过 程 。 图 4-8 演示 了 节点 A 
的 处 理 步 又 。 














每 一 步 都 保留 或 更 新 到 目前 为 止 计算 出 的 最 小 值 
仅 给 出 从 布点 A 到 其 他 各 布点 的 计算 步 双 C 


所 有 节点 的 初始 距离 






































第 2 步 第 3 步 第 4 步 第 5 步 
设置 为 o， 之 后 起 始 从 A 到 C 再 到 ”从 A 到 B 再 到 ”从 A 到 E 再 到 从 A 到 D 再 到 
节点 的 距离 设置 为 0 中 下 一 节点 下 一 节点 下 一 节点 下 一 节点 
A oo 0 0 0 0 0 0 
B oo oo 3 3 3 | 
C oo oo 1 1 1 1 1 
D oo oo oo 8 6 5 5 
E oo oo oo oo 4 4 4 











图 4-8: 计算 从 节点 A 到 其 他 各 节点 最 短路 径 的 步骤 ， 更 新 步骤 用 阴影 标 出 


该 算法 最 初 假 定 到 所 有 节点 的 距离 都 为 无 穷 大 。 选 定 起 始 节点 后 ， 将 到 该 节点 的 距离 设 为 
0。 计 算 过 程 如 下 。 


1. 从 起 始 节 点 A 开始 ， 计 算 移 动 到 可 达 节 点 的 代价 并 更 新 值 。 可 以 选择 
B (代价 为 3) 或 C (代价 为 1)。 选 定 C 作为 下 一 阶段 遍历 的 起 始 节 

2. 现在 从 节点 C 开始， Re 只 有 当代 
价 更 小 时 ， 才 会 更 新 值 。 








A=0，B=3，C=1，D=8，E= co 


后 选择 B 作为 未 访问 的 下 一 最 近 节 点 。 它 与 节点 A、D 和 E 都 有 关系 。 算 法 将 A 到 
B 与 B 到 每 个 节点 的 距离 相 加 ， 计 算出 A 到 这 些 闻 点 的 距离 。 注 意 ， 从 起 始 节 点 
A 到 当前 节点 的 最 小 代价 始终 作为 沉没 成 本 保留 。 距 离 〈d) 计算 结果 如 下 : 

















d(A,A) = d(A,B) + d(B,A) = 3 + 3 = 6 
d(A,D) = d(A,B) + d(B,D) = 3 + 3 = 6 
d(A,E) = d(A,B) + d(B,E) = 3 + 1 = 4 





。 在 这 一 步 中 ， 节 点 A 到 B 再 到 A 的 距离 ， 即 d(A,A)=6， 大 于 已 经 计算 出 的 最 短 距 
离 (0)， 因 此 不 更 新 其 值 。 
。 到 节点 D (6) 和 BE (4) 的 距离 小 于 之 前 计算 的 距离 ， 因 此 更 新 其 值 。 























4. 接 下 来 选择 EE。 现 在 只 有 达到 D (5) 的 累计 总 代价 较 小 ， 因 此 仅 更 新 该 项 。 
5. 在 最 终 计算 D 时 ， 没 有 新 的 最 小 路 径 权 重 ， 故 不 更 新 ， 且 算法 终止。 

















尽管 所 有 点 对 最 短路 径 算法 相对 于 并 行 计算 每 个 节点 而 言 更 优 ， 但 对 于 大 规 
模 的 图 来 说 ， 代 价 仍然 高 晶 。 如 果 具 需要 计算 子 类 别 节 点 之 间 的 路 径 ， 则 请 
考虑 使 用 子 图 。 

















4.5.2” 何 时 使 用 所 有 点 对 最 短路 径 算法 

当 最 短路 径 被 阻塞 或 不 够 理想 时 ， 通 常 采 用 所 有 点 对 最 短路 径 遂 选 砍 代 路 线 ， 例 如 使 用 该 

算法 规划 逻辑 路 线 ， 可 确保 在 各 种 路 线 选 择 情况 下 都 有 多 条 最 佳 路 符 。 当 需要 考虑 所 有 或 

大 部 分 节点 之 间 的 全 部 可 能 路 径 时 ， 请 使 用 所 有 点 对 最 短路 径 算法 。 

示范 用 例如 下 。 

。 优化 城市 设施 配备 和 商品 配送 ， 例 如 确定 交通 网 格 不 同 区 段 的 预期 交通 负载 。 更 多 内 容 
请 参阅 R. C. Larson 和 A. R. Odoni 的 若 作 “Urban Operations Research”。 

。 可 作为 数据 中 心 设计 算法 的 一 部 分 ， 用 于 查找 带宽 最 大 、 延 迟 最 低 的 网 络 。 对 于 该 方法 
的 详细 介绍 ， 参 见 A. R. Curtis 等 人 的 论文 “REWIRE: An Optimization-Based Framework 


for Data Center Network Design” 。 


4.5.3 ”使 用 Spark 实 现 所 有 点 对 最 短路 径 算法 
Spark 的 shortestPaths 国 数 用 于 查找 从 所 有 节点 到 路 标 闻 点 集合 的 最 短路 径 。 如 果 要 查找 从 
各 个 地 点 到 Colchester、Immingham 和 Hoek van Holland 的 最 短路 径 ， 可 以 编写 以 下 查询 : 















































result = g.shortestpaths(["Colchester", "Immingham", "Hoek van Holland"]) 
result.sort(["id"]).select("id", "distances").show(truncate=False) 


在 PySpark 中 运行 以 上 代码 ， 输 出 结果 如 下 所 示 : 








id distances 

Amsterdam [Immingham 一 1, Hoek van Holland 一 2, Colchester 一 4] 
Colchester [CoLchester 一 0, Hoek van Holland 一 3, Immingham 一 3] 
Den Haag [Hoek van Holland 一 1, Immingham 一 2, Colchester 一 4] 
Doncaster [Immingham 一 1, Colchester 一 2, Hoek van Holland 一 4] 
Felixstowe [Hoek van Holland 一 1, Colchester 一 2, Immingham 一 4] 
Gouda [Hoek van Holland 一 2, Immingham 一 3, Colchester 一 5] 
Hoek van HoLLand [Hoek van Holland 一 0, Immingham 一 3, Colchester 一 3] 
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Immingham 
Ipswich 
London 
Rotterdam 
Utrecht 


distances 列 中 每 个 地 点 旁边 的 数字 表示 从 源 节 点 到 目的 地 所 需 穿越 的 城 站 
在 本 例 中 ，Colchester 是 目的 地 之 一 ， 从 它 出 发 要 穿越 0 个 


(道路 ) 数量 。 





[Immingham 一 0, Colchester 一 3, Hoek van Holland 
[CoLchester 一 1, Hoek van Holland 一 2, Immingham 
[CoLchester 一 1, Immingham 一 2, Hoek van Holland 
[Hoek van Holland 一 1, Immingham 一 3, Colchester 


[Immingham 一 2, Hoek van Holland 一 3, Colchester 


3] 
4] 
4] 
4] 
5] 


之 间 的 关系 





节点 ， 但 是 从 


Immingham 和 Hoek van Holland 出 发 就 要 经 过 3 跳 。 在 规划 旅行 路 线 时 ， 利 用 这 些 信 息 有 


助 于 我 们 在 目的 地 尽 


4.5.4 使 用 Neo4j 实 现 所 有 点 对 最 短路 径 算 法 





青 畅 游 。 


Neo4j 提供 了 所 有 点 对 最 短路 径 算 法 的 并 行 实现 ， 将 返回 每 对 市 点 之 间 的 距离 。 


该 程序 的 第 1 个 参数 用 于 计算 最 短 加 权 路 径 的 性 质 。 如 果 将 其 设 为 nuLL， 那 么 算法 将 计算 
所 有 市 点 对 之 间 的 无 权 最 短路 径 。 


查询 实现 如 下 : 


CALL algo. 





allShortestPaths.stream(null) 


YIELD sourceNodeId, targetNodeId, distance 

WHERE sourceNodeId < targetNodeId 

RETURN aLgo.getNodeById(sourceNodeId) .id AS source， 
aLgo.getNodeById(targetNodeId) .id AS target， 
distance 

ORDER BY distance DESC 


LIMIT 10 


该 算法 将 返回 每 对 节点 之 间 的 最 短路 径 两 次 ， 每 次 将 其 中 一 个 节点 作为 源 节 点 。 这 在 计算 
由 单行 道 构成 的 有 向 图 时 很 有 用 。 然 而 ， 这 里 并 不 需要 每 条 路 径 出 现 两 次 ， 所 以 使 用 谓词 





sourceNodeId < targetNodeId 筛选 结果 ， 只 保留 其 中 一 个 结果 即 可 。 



































查询 的 返回 结果 如 下 所 示 : 





source target distance 
Colchester Utrecht 5.0 
London Rotterdam 5.0 
London Gouda 5.0 
Ipswich Utrecht 5.0 
Colchester Gouda 5.0 
Colchester Den Haag 4.0 
London Utrecht 4.0 
London Den Haag 4.0 
Colchester Amsterdam 4.0 
Ipswich Gouda 4.0 























由 于 要 求 结果 按 降序 排列 (DESC)， 因 此 上 述 输 出 结果 


给 








HH 了 关系 最 多 的 10 对 地 点 。 


如 果 要 计算 最 短 加 权 路 径 ， 就 不 能 将 null 作为 第 1 个 参数 ， 可 以 传递 舍 有 最 短路 径 计 算 所 
需 代 价值 的 性 质 名 称 〈distance)。 利 用 该 性 质 可 以 计算 每 对 节点 之 间 的 最 短 加 权 路 径 。 


下 面 的 查询 可 实现 上 述 操作 : 


CALL algo.allShortestPaths.stream("distance") 
YIELD sourceNodeId，targetNodeId，distance 


WHERE sourceNodeId < targetNodeId 
RETURN aLgo.getNodeById(sourceNodeId) .id AS source， 
aLgo.getNodeById(targetNodeId) .id AS target， 





distance 

ORDER BY distance DESC 

LIMIT 10 
该 查询 的 返回 结果 如 下 所 示 : 
source target 
Doncaster Hoek van Holland 
Rotterdam Doncaster 
Gouda Doncaster 
Felixstowe Immingham 
Den Haag Doncaster 
Ipswich Immingham 
Utrecht Doncaster 
London Utrecht 
Colchester Immingham 
Immingham Hoek van Holland 


distance 
529. 
528 . 
524. 
S11 
502 . 
489 . 
489 . 
460 . 
457. 
455. 


0 
0 
0 


© © © © © © © 





这 就 得 到 了 10 对 距离 最 远 的 地 点 。 请 注意 ，Doncaster 经 常 与 符 兰 的 儿 个 城市 一 起 出 现 。 

















如 果 要 驾车 游览 这 些 地 区 ， 候 怕 在 路 上 的 时 间 会 很 长 。 


4.6 ”音源 最 短路 径 算法 


单 源 最 短路 径 算 法 (single source shortest path algorithm，SSSP algorithm) 与 Dijkstra 最 短 
路 径 算 法 几乎 同时 间 世 ， 它 是 解决 前 述 两 个 问题 ”的 另 一 种 实现 。 


单 源 最 短路 径 算法 计算 从 根 节 点 到 图 中 其 他 各 节点 的 最 短 (加 权 ) 路 径 ， 如 图 4-9 所 示 。 





注 2: 此 处 应 该 是 指 最 短路 径 查 找 和 替代 路 线 选择 这 两 个 问题 。 一 译 者 注 








路 


乏术 


工 旦 


找 算法 和 
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8 或 





1+3+6=10 


1+4=5 或 
1+3+2=6 


8 .或 
1+3+6=10 











图 4-9: 单 源 最 短路 径 算法 的 步骤 
算法 流程 如 下 。 


一 


作为 根 节点 。 


MD 


就 是 d(A,D)=1。 





[So] 


. 选择 到 根 节点 权重 最 小 的 关系 ， 


. 算法 从 根 节点 开始 ， 且 所 有 路 径 都 将 从 根 节 点 开始 度量 。 在 图 4-9 中 ， 我 们 选择 市 点 A 


将 该 关系 和 与 其 关联 的 市 点 一 起 添加 到 树 中 ， 在 本 例 中 


.选择 从 根 节点 到 各 未 访问 节点 中 累计 权重 最 小 的 下 一 个 关系 ， 以 相同 方式 将 该 关系 和 关 


联 节点 添加 到 树 中 。 图 4-9 中 的 选项 有 d(A,B)=8、 直 接 路 线 d(A,C)=5 (按照 A-D-C 路 


线 ， 则 权重 为 4) 和 d(A,E)=5。 





因此 ， 选 择 A-D-C 路 线 ， 并 将 C 添加 到 树 中 。 


4. 持续 执行 该 过 程 ， 直 到 没有 更 多 节点 要 添加 为 止 ， 从 而 得 到 单 源 最 短路 径 。 


4.6.1 


何 时 使 用 单 源 最 短路 径 算 法 


当 需 要 求解 从 固定 起 始 节点 到 其 他 各 节点 的 最 优 路 径 时 ， 可 以 采用 单 源 最 短路 径 算法 。 由 
于 该 算法 基于 从 根 市 点 出 发 的 路 径 总 权重 来 选择 路 线 ， 因 此 对 查找 根 市 点 到 各 市 点 的 最 优 
路 径 很 有 用 ， 但 是 如 果 要 在 一 次 行程 中 访问 所 有 节点 ， 就 不 必 采 用 该 算法 。 


举例 来 说 ， 单 源 最 短路 径 算 法 对 于 确定 急救 服务 的 主要 路 线 很 有 帮助 ， 这 种 场景 并 不 要 求 








邮 


经 过 每 起 事故 的 每 个 地 点 ;但 是 该 算法 无 法 为 垃圾 收集 这 样 的 应 用 场景 查找 单 源 路 线 ， 因 
为 这 种 场景 需要 在 一 次 行程 中 访问 每 家 每 户 。( 对 于 后 一 种 情况 ， 要 使 用 最 小 生成 树 算法 ， 
稍 后 介绍 。) 








示范 用 例如 下 。 


。 探测 拓扑 变化 并 快速 推荐 新 的 路 线 ， 例 如 链接 故障 。 
。 使 用 Dijkstra 算法 作为 自治 系统 (例如 局 域 网 ) 中 的 全 路 由 选择 协议 。 





4.6.2 ”使 用 Spark 实 现 单 源 最 短路 径 算 法 

我 们 可 以 采用 自己 编写 的 shortest_path 国 数 来 计算 两 地 间 的 最 短路 径 ， 而 不 必 返 回 其 一 
地 点 到 其 他 各 个 地 点 的 全 部 最 短路 径 。 广 意 ， 可 使 用 Spark 的 aggregateMessages 框架 来 自 
定义 函数 。 

首先 导入 与 之 前 相同 的 库 : 


from graphframes.lib import AggregateMessages as AM 
from pyspark.sql import functions as F 





使 用 同样 的 用 户 自 定义 函数 来 构建 路 径 : 








add_path_udf = F.udf(Lambda path, id: path + [id], ArrayType(StringType())) 
然后 定义 主 国 数 ， 它 用 于 计算 从 起 点 出 发 的 最 短路 径 : 


def sssp(g, origin, column_ name="cost"): 

vertices = g.vertices \ 
.withColumn("visited", F.lit(False)) \ 
.withColumn("distance", 

F.when(g.vertices["id"] == origin, 0).otherwise(float("inf"))) \ 

.withColumn("path", F.array()) 

cached_vertices = AM.getCachedDataFrame(vertices) 

g2 = GraphFrame(cached_vertices, g.edges) 


while g2.vertices.filter('visited == False').first(): 

current_node id = g2.vertices.filter('visited == False') 
.sort("distance").first().id 
msg_distance = AM.edge[coLumn_name] + AM.src['distance'] 
msg_path = add_path _udf(AM.src["path"], AM.src["id"]) 
msg_for_dst = F.when(AM.src['id'] == current_node_id, 
F.struct(msg_distance, msg_path)) 
new_distances = g2.aggregateMessages( 
F.min(AM.msg).alias("aggMess"), sendToDst=msg_for_dst) 


new_visited col = F.when( 
g2.vertices.visited | (g2.vertices.id == current_node id), 
True).otherwise(False) 
new_distance_coL = F.when(new distances["aggMess"].isNotNull() & 
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new_path_col 


new_vertices 


(new_distances.aggMess["col1"] < 
g2.vertices.distance), 

new_distances.aggMess["col1"]) \ 
.otherwise(g2.vertices.distance) 


F.when(new_distances["aggMess"].isNotNull() & 


(new_distances.aggMess["col1"] < 
g2.vertices.distance), 
new_distances.aggMess["col2"] 
.cast("array<string>")) \ 
.otherwise(g2.vertices.path) 


g2.vertices.join(new_distances, on="id", 


how="Left_outer") \ 


.drop(new_distances["id"]) \ 
.withColumn("visited", new_visited col) \ 
.withColumn("newDistance", new_distance col) \ 
.withColumn("newPpath", new_path_col) \ 
.drop("aggMess", "distance", "path") \ 
.withColumnRenamed('newDistance', 'distance') \ 
.withColumnRenamed('newpath', 'path') 


cached_new_vertices = AM.getCachedDataFrame(new_vertices) 
g2 = GraphFrame(cached_new_vertices, g2.edges) 


return g2.vertices \ 
.withColumn("newPpath", add_path_udf("path", "id")) \ 
.drop("visited", "path") \ 
.withColumnRenamed("newPpath", "path") 














如 果 要 查找 Amsterdam 到 其 他 各 地 的 最 短路 径 ， 可 以 像 下 面 这 样 调用 该 函数 


via_udf = F.udf(Lambda path: path[1:-1], ArrayType(StringType())) 


result = sssp(g, "Amsterdam", "cost") 


(result 


.withColumn("via", via_udf("path")) 
.Select("id", "distance", "via" 
.sort("distance") 


.Show(truncate=False)) 


还 要 定义 另 一 个 用 户 
代码 ， 输 出 结果 如 下 所 示 : 





自 定义 函数 ， 从 获得 的 路 径 中 筷 选 出 起 始 市 点 和 终止 市 


占 


wo 


运行 以 上 








id distance via 

Amsterdam 0.0 ] 

Utrecht 46.0 ] 

Den Haag 59.0 ] 

Gouda 81.0 Utrecht] 

Rotterdam 85.0 Den Haag] 

Hoek van Holland 86.0 Den Haag] 

Felixstowe 293.0 Den Haag, Hoek van Holland] 

Ipswich 315.0 Den Haag, Hoek van Holland, Felixstowe] 





Colchester 347.0 [Den Haag, Hoek van Holland, Felixstowe, Ipswich] 

Immingham 369.0 [] 

Doncaster 443.0 [Immingham] 

London 453.0 [Den Haag, Hoek van Holland, Felixstowe, Ipswich, Colchester] 





























结果 列 出 了 从 根 节点 Amsterdam 到 图 中 其 他 各 城市 的 物理 距离 (以 千 米 为 单位 )， 按 最 短 
距离 排序 。 


4.6.3 ”使 用 Neo4j 实 现 单 源 最 短路 径 算 法 

Neo4j 实现 了 单 源 最 短路 径 算 法 的 一 个 变 体 ， 称 为 Delta-Stepping 算法 ， 它 将 Dijkstra 算法 
划分 为 多 个 可 并 行 执行 的 阶段 。 

下 面 的 查询 执行 了 Delta-Stepping 算法 : 


MATCH (n:Place {id:"London"}) 

CALL algo.shortestPath.deltaStepping.stream(n, "distance", 1.0) 
YIELD nodeId，distance 

WHERE algo.isFinite(distance) 

RETURN aLgo.getNodeById(nodeId) .id AS destination, distance 
ORDER BY distance 


查询 的 返回 结果 如 下 所 示 : 




















destination distance 
London 0.0 
Colchester 106.0 
Ipswich 138.0 
Felixstowe 160.0 
Doncaster 277.,0. 
Immingham 351.0 
Hoek van Holland 367.0 
Den Haag 394.0 
Rotterdam 400.0 
Gouda 425.0 
Amsterdam 453.0 
Utrecht 460.0 





结果 列 出 了 从 根 节点 London 到 图 中 其 他 各 城市 的 物理 距离 〈 以 千 米 为 单位 ) ， 按 最 短 距离 
排序 。 


4.7 最 小 生成 树 算法 


最 小 (加 权 ) 生成 树 算法 从 给 定 节 点 开始 ， 查 找 其 所 有 可 达 节 点 以 及 连接 这 些 节 点 权重 最 小 
的 关系 集合 。 它 从 任意 已 经 过 闻 点 壳 历 到 下 一 未 访问 市 点 的 权重 最 小 ， 从 而 避免 了 出 现 环 。 
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捷克 科学 家 Otakar Boravka 于 1926 年 首次 提出 最 小 加 权 生 成 树 算 法 。 诞 生 于 1957 年 的 
Prim 算法 ， 是 最 简单 、 最 著名 的 最 小 生成 树 算法 。 


Prim 算法 与 Dijkstra 最 短路 径 算法 类 似 ， 但 它 并 没有 在 每 个 关系 结束 时 都 最 小 化 总 路 径 长 度 ， 
而 是 将 每 个 关系 的 长 度 分 别 最 小 化 。 与 Dijkstra 算法 不 同 ， 它 允许 计算 带 有 负 权重 的 关系 。 


最 小 生成 树 算法 的 流程 如 图 4-10 所 示 。 


























4-10: 最 小 生成 树 算法 的 步骤 
步骤 如 下 。 





1. 算法 从 只 包含 一 个 市 点 的 树 开始 。 在 图 4-10 中 ， 它 是 从 节点 A 开始 的 。 

2. 选择 从 该 节点 出 发 权重 最 小 的 关系 并 将 其 〈 连 同 与 之 关联 的 节点 ) 添加 到 树 中 。 在 本 例 
中 为 A-D。 

3. 重复 此 过 程 ， 始 终 选择 权重 最 小 且 所 连接 节点 尚 不 在 树 中 的 关系 。 如 果 将 本 例 与 图 4-9 
中 的 单产 最 短路 径 算 法 示例 进行 比较 ， 就 会 发 现 第 4 张 图 中 的 路 径 有 所 不 同 。 这 是 因为 
单 源 最 短路 径 算法 基于 从 根 节 点 开始 的 总 累计 值 来 计算 最 短路 径 ， 而 最 小 生成 树 只 考虑 
下 一 步 的 代价 。 

4. 当 再 没有 更 多 市 点 要 添加 时 ， 妆 前 树 即 为 最 小 生成 树 。 


该 算法 也 有 许多 变 体 ， 可 以 查找 最 大 权重 生成 树 (代价 最 大 的 树 ) 和 上 生成 树 (限制 树 的 
规模 )。 


4.7.1 何 时 使 用 最 小 生成 树 算法 

当 需 要 查找 经 过 所 有 节点 的 最 佳 路 径 时 ， 请 使 用 最 小 生成 树 。 因 为 路 径 是 根据 每 一 步 的 代 
价 来 选择 的 ， 所 以 在 一 次 行程 中 必须 经 过 所 有 节点 时 ， 该 算法 非常 有 用 。( 如 果 不 需 要 一 
条 单 次 行程 的 路 径 ， 请 参阅 4.6 节 。) 















































该 算法 既 可 用 于 优化 连通 系统 (如 水 管 和 电路 设计 ) 的 路 径 ， 也 可 用 于 近似 求解 一 些 计算 
时 间 未 知 的 问题 ， 比 如 旅行 商 问 题 和 某 些 类 型 的 舍 入 问题 。 虽 然 不 一 定 总 能 找到 绝对 最 优 
解 ， 但 该 算法 使 得 次 在 的 复杂 分 析 和 计算 密集 型 分 析 更 容易 实现 。 


示范 用 例如 下 。 











。 最 小 化 在 某 个 国家 旅行 的 成 本 。 "An Application of Minimum Spanning Trees to Travel 
Planning” 一 文 介绍 了 如 何 用 该 算法 分 析 航 空 和 航海 的 行程 接续 ， 实 现 旅行 成 本 最 小 化 。 

。 可 视 化 货币 回报 之 间 的 相关 性 ， 参 见 论 文 “Minimum Spanning Tree Application in the 
Currency Market 。 

。 追踪 疫情 暴发 过 程 中 的 病毒 感染 传播 历史 信息 ， 详 见 论文 “Use of the Minimum Spanning 
Tree Model for Molecular Epidemiological Investigation of a Nosocomial Outbreak of 


Hepatitis C Virus Infection” 。 














最 小 生成 树 算法 只 有 在 关系 权重 不 同 的 图 上 运行 时 才能 得 到 有 意义 的 结果 。 
如 果 图 没有 权重 ,或 者 所 有 关系 权重 都 相同 ， 那 么 任何 生成 树 都 是 最 小 生 
成 树 。 


























4.7.2 ”使 用 Neo4j 实 现 最 小 生成 树 算法 
接 下 来 实际 执行 最 小 生成 树 算法 。 下 面 的 查询 找到 一 棵 从 Amsterdam 开始 的 生成 树 : 


MATCH (n:Place {id:"Amsterdam"}) 

CALL algo.spanningTree.minimum("Place", "EROAD", "distance", id(n), 
{write:true, writeproperty:"MINST"}) 

YIELD loadMillis, computeMillis, writeMillis, effectiveNodeCount 

RETURN loadMillis, computeMillis, writeMillis, effectiveNodeCount 


传递 给 算法 的 参数 如 下 。 


DD Place 
在 计算 生成 树 时 要 考虑 的 节点 标签 。 
口 EROAD 


在 计算 生成 树 时 要 考虑 的 关系 类 型 。 
口 distance 


表示 遍历 市 点 对 之 间 路 径 代价 的 关系 性 质 名 称 。 





DQ id(n) 
生成 树 起 始 节点 的 内 部 节点 ID。 





该 查询 在 图 上 存储 查询 结果 。 如 果 想 返回 最 小 权重 生成 树 ， 可 以 运行 如 下 查询 : 











MATCH path = (n:Place {id:"Amsterdam"})-[:MINST*]-() 

WITH relationships(path) AS rels 

UNWIND rels AS rel 

WITH DISTINCT rel AS rel 

RETURN startNode(rel).id AS source, endNode(rel).id AS destination, 
rel.distance AS cost 
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查询 的 返回 结果 如 下 所 示 : 





source destination cost 
Amsterdam Utrecht 46.0 
Utrecht Gouda 35.0 
Gouda Rotterdam 25.0 
Rotterdam Den Haag 26.0 
Den Haag Hoek van Holland 27.0 
Hoek van Holland Felixstowe 207.0 
Felixstowe Ipswich 22.0 
Ipswich Colchester 32:0 
Colchester London 106.0 
London Doncaster 277.0 
Doncaster Immingham 74.0 


假设 从 Amsterdam 出 发 并 且 希 望 在 同一 旅程 中 访问 数据 集中 的 其 他 各 地 点 ， 图 4-11 展示 


了 满足 该 需求 的 连续 最 短路 径 。 
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4-11: 从 Amsterdam 出 发 的 最 小 生成 树 





4.8 随机 游 走 算法 

随机 游 走 算法 提供 了 图 中 某 条 随机 路 符 上 的 一 个 节点 集合 。1905 年 ，Karl Pearson 在 给 
自然 》 杂 志 的 一 封 题 为 “The Problem of the Random Walk” 的 信 中 首次 提 到 这 个 术语 。 虽 
然 这 一 概念 可 以 追溯 到 更 早 ， 但 是 直到 最 近 ， 随 机 游 走 算法 才 被 应 用 于 网 络 科学 中 。 

有 时 也 将 随机 游 走 描述 为 类 似 于 一 个 醇 汉 穿行 城市 。 他 知道 自己 要 到 达 的 方向 或 终点 ， 但 
路 线 可 能 会 非常 迁 回 。 





天 








该 算法 从 某 个 节点 开始 ， 带 有 点 随机 性 地 沿 着 某 个 关系 前 进 一 一 向 前 或 向 后 ， 到 达 邻 节 
点 ， 然 后 从 当前 节点 开始 执行 相同 操作 ， 以 此 类 推 ， 直 到 达到 设 定 路 径 长 度 为 止 。( 之 所 
以 说 “ 带 有 点 随机 性 "， 是 因为 节点 的 关系 数量 及 其 邻 节点 的 关系 数量 会 影响 经 过 该 节点 
的 概率 。) 


4.8.1 何 时 使 用 随机 游 走 算法 
当 需 要 随机 生成 一 组 相互 连接 的 节点 时 ， 可 以 将 随机 游 走 算法 作为 其 他 算法 的 一 部 分 或 数 
据 管 道 使 用 。 


示范 用 例如 下 。 


。 在 node2vec 算法 和 graph2vec 算法 中 用 于 创建 节点 对 入 。 这 些 节 点 能 入 可 以 用 作 神 经 网 
络 的 输入 。 

。 在 Walktrap 和 Infomap 社团 发 现 算法 中 使 用 。 如 果 随 机 游 走 算法 重复 返回 一 个 较 小 的 节 
点 集合 ， 则 表明 该 节点 集合 可 能 具有 社团 结构 。 

。 在 机 器 学 习 模 型 的 训练 过 程 中 使 用 ， 参 见 David Mack 的 论文 “Review Prediction with 


Neo4j and TensorFlow 。 














还 可 以 阅读 由 N. Masuda、M. A. Porter 和 及 . Lambiotte 撰写 的 论文 “Random Walks and 
Diffusion on Networks”， 了 解 更 多 用 例 。 


4.8.2 ”使 用 Neo4j 实 现 随机 游 走 算法 

Neo4j 提供 了 一 种 随机 游 走 算法 实现 。 在 算法 的 每 个 阶段 选择 下 一 个 关系 时 ， 它 支持 两 种 
模式 。 

口 random 


随机 选择 一 个 关系 。 





口 node2vec 


在 计算 前 一 邻 节 点 概率 分 布 的 基础 上 选择 关系 。 
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下 面 的 查询 可 以 实现 该 操作 : 


MATCH (source:Place {id: "London"}) 

CALL algo.randomWalk.stream(id(source), 5, 1) 
YIELD nodeIds 

UNWIND aLgo.getNodesById(nodeIds) AS place 
RETURN place.id AS place 


传递 给 算法 的 参数 如 下 。 


口 id(source) 


随机 游 走 起 始 市 点 的 内 部 市 点 中。 


口 5 
随机 游 走 所 用 的 跳 数 。 





Dl 
要 计算 的 随机 游 走 数量 。 





返回 结果 如 下 所 示 : 


place 





London 
Doncaster 
Immingham 
Amsterdam 
Utrecht 


Amsterdam 


在 随机 游 走 的 每 个 阶段 ， 下 一 关系 都 是 随机 选择 的 。 这 意味 着 如 果 重 新 运行 算法 ， 即 使 参数 
相同 ， 结 果 也 可 能 不 同 。 随 机 游 走 也 可 能 回 济 到 某 一 节点 ， 如 图 4-12 所 示 ， 从 Amsterdam 
到 Utrecht 后 返回 。 


- Ee. -@ oy 
人 NMEr 一 一 


4-12: 从 London 出 发 的 随机 游 走 




















4.9 ”小结 

路 径 查 找 算法 有 助 于 理解 数据 的 关联 方式 。 本 章 从 基础 的 广度 优先 搜索 算法 和 次 度 优 先 搜 
索 算 法 开始 ， 介 绍 了 Dijkstra 算法 和 其 他 最 短路 径 算法 ， 还 研究 了 对 最 短路 径 算法 优化 后 
的 一 些 变 体 ， 以 便 查 找 从 单个 节点 到 其 他 各 节点 的 最 短路 径 以 及 图 中 所 有 节点 对 之 间 的 最 
短路 径 ， 最 后 还 介绍 了 随机 游 走 算法 ， 它 可 以 用 于 查找 随机 的 路 径 集合 。 


接 下 来 将 介绍 中 心性 算法 ， 它 用 于 查找 图 中 有 影响 力 的 节点 。 
































算法 相关 资料 
关于 算法 的 图 书 有 很 多 ， 其 中 Steven S. Skiena 所 写 的 《算法 设计 指南 》 尤 为 突出 ， 访 
书 阐述 了 图 的 基本 概念 和 多 种 图 算法 。 不 论 你 想 寻找 有 关 经 典 算法 和 设计 技巧 的 综合 
资料 ， 还 是 只 想 深入 研究 各 种 算法 的 具体 运算 过 程 ， 部 强烈 推荐 这 本 教科 书 。 














路 径 查 找 算法 和 图 搜索 算法 | 63 





第 5 章 





中 心性 算法 


中 心性 算法 用 于 理解 图 中 特定 节点 的 人 











E 用 及 其 对 网 络 的 影响 。 这 些 算 法 很 有 用 ， 因 为 它们 





可 以 识别 最 重要 的 市 点 ， 帮 助 我 们 了 解 群 组 动态 ， 例 如 可 信和 度 、 可 访问 性 、 事 物 的 传播 速 
度 以 及 群 组 之 间 的 “桥梁 ”等 。 尽 管 其 中 许多 算法 是 为 社交 网 络 分 析 而 发 明 的 ， 但 在 其 他 














很 多 行业 和 领域 中 也 有 应 用 。 
本 章 将 介绍 以 下 算法 。 




















。 度 中 心性 算法 ， 可 作为 连通 度 的 基准 指标 。 

。 接近 中 心性 算法 , 用 于 度量 节点 在 群 组 中 的 中 心 程度 , 包括 两 种 针对 不 连通 群 组 的 变 体 。 
。 中 间 中 心性 算法 "， 用 于 寻找 控制 点 ， 包 括 一 种 近似 的 末代 方法 。 

。 PageRank 算法 ， 用 于 了 解 总 体 影 响 ， 包 括 流 行 的 个 性 化 选项 。 














度量 内 容 不 同 ， 中 心性 算法 产生 的 结果 也 会 显著 不 同 。 如 果 结 果 不 理想 ， 就 
应 检查 所 用 算法 是 否 与 其 设计 初 圳 一 致 。 























本 章 将 解释 这 些 算法 的 工作 原理 ， 并 给 出 Spark 示例 及 Neo4j 示例 。 如 果 算 法 在 其 中 一 个 





平台 上 不 可 用 或 者 差异 不 明显 ， 则 仅 提 供 











一 个 平台 的 示例 。 





图 5-1 展示 了 中 心性 算法 所 针对 的 各 种 问题 之 间 的 区 别 ， 表 5-1 是 每 种 算法 及 其 示范 用 例 





的 速 查 表 。 





注 1: Betweenness Centrality， 也 译作 上 
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PP 了 


品 





PpP 心 必 








FE 算 法 。 一 一 译 者 注 




















































































































度 中 心性 算法 要、 接近 中 心性 算法 
节点 的 连接 数量 有 多 少 ? 在 图 或 子 图 中 ， 哪 个 节点 
节点 A 的 度 最 高 更 容易 到 达 其 他 各 节点 ? 
节点 B 在 其 子 图 中 是 最 近 的 ， 
a 跳 数 最 少 
PageRank 算 法 
中 间 中 心性 算法 a A 
Pp 个 节点 最 重要 ? 
哪个 节点 节点 
wi 之 的 这 2 bo A 楼 的 数量 和 权重 来 看 ， 
加 节点 D 最 重要 
村 ® 受 与 节点 D 连 接 的 影响 ， 节 点 E 
的 重要 性 其 次 
图 5-1: 具有 代表 性 的 中 心性 算法 及 其 针对 的 问题 类 型 
: 中 心性 算法 总 览 
Spark ”Neo4j 
算法 类 型 作 用 示范 用 例 Re 
示例 示例 
度 中 心性 算法 度量 节点 拥有 的 关系 数量 通过 研究 入 度 来 评估 某 人 的 有 无 
受 欢迎 程度 ， 使 用 出 度 评估 
其 社交 情况 
接近 中 心性 算法 计算 哪些 节点 具有 到 其 他 查找 最 佳 位 置 ， 最 大 化 新 型 有 有 
变 体 ;Wasserman & Faust 算法 、 各 节点 的 最 短路 径 公共 服务 的 可 达 性 
调和 中 心性 算法 





中 间 中 心性 算法 
变 体 : RA-Brandes 算法 
PageRank 算法 











度量 通过 某 个 节点 的 最 短 通过 查找 针对 特定 疾病 的 控 无 有 
路 径 的 数量 制 基因 来 改进 药物 的 丢 向 性 
通过 与 当前 节点 相连 的 节 为 机 器 学 习 的 抽取 阶段 查找 有 有 




















变 体 : 个 性 化 PageRank 算法 。 点 以 及 它们 的 邻 节点 来 佑 最 有 影响 力 的 特征 ， 以 及 为 
































计 当 前 布点 的 重要 性 (由 自然 语言 处 理 中 的 实体 关联 
谷歌 公司 推广 ) 进行 文本 排序 
































有 几 种 中 心性 算法 需要 计算 每 对 节点 之 间 的 最 短路 径 。 这 在 中 小 型 图 上 可 正 
常 运行 ， 对 于 大 型 图 则 无 法 计算 。 为 了 避免 在 大 型 图 上 长 时 间 和 运行， 有 些 算 
去 〈 例 如 中 间 中 心性 算法 ) 提供 了 近似 版 本 。 








首先 介绍 示例 数据 集 ， 演 示 如 何 将 数据 导入 Spark 和 Neo4j ， 然 后 按 表 5-1 的 顺序 介绍 每 种 
算法 : 先是 概述 ， 然 后 在 必要 时 介绍 算法 的 运算 过 程 。 对 于 算法 的 变 体 ， 讲 过 的 内 容 不 再 


发 述 。 很 多 地 方 还 会 
示例 代码 。 
那 就 开始 吧 ! 





就 机 


目 关 算法 的 使 用 场景 给 出 指导 。 理 论 先 行 ， 而 后 用 样本 数据 集 演示 
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5.1 示例 数据 : 社交 图 


中 心性 算法 可 用 于 所 有 类 型 的 图 ， 只 不 过 在 过 罕 动态 影响 和 信息 流 方面 ， 社 交 网 络 更 容易 
理解 。 本 章 的 示例 ( 见 表 5-2 和 表 5-3) 在 一 个 类 Twitter 的 小 型 图 上 运行 。 本 书 配 套 文件 
包含 用 于 创建 图 的 节点 和 关系 的 文件 。 























表 5-2: social-nodes.csv 


id 





ALice 
Bridget 
Charles 
Doug 
Mark 
Michael 
David 
Amy 


James 


表 5-3: social-relationships.csv 





src dst relationship 
Alice Bridget FOLLOWS 
Alice Charles FOLLOWS 
Mark Doug FOLLOWS 
Bridget Michael FOLLOWS 
Doug Mark FOLLOWS 
Michael Alice FOLLOWS 
Alice Michael FOLLOWS 
Bridget Alice FOLLOWS 
Michael Bridget FOLLOWS 
Charles Doug FOLLOWS 
Bridget Doug FOLLOWS 
Michael Doug FOLLOWS 
Alice Doug FOLLOWS 
Mark Alice FOLLOWS 
David Amy FOLLOWS 
James David FOLLOWS 





图 5-2 展示 了 我 们 要 构造 的 图 。 
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ed Fotlows 
FOLLOWS 
pe 一 Fouows 
包 \ 


Ee 


o> 











5-2; 示例 图 模型 


我 们 有 一 个 较 大 的 用 户 集 (其 中 包含 用 户 间 的 关联 关系 ) 和 一 个 较 小 的 用 户 集 〈 它 与 较 大 
的 用 户 集 没有 关联 )。 























下 面 基于 这 些 CSV 文件 中 的 内 容 在 Spark 和 Neo4 中 创建 图 。 


5.1.1 将 数据 导入 Spark 
从 Spark 和 GraphFrames 包 中 导入 所 需 的 包 : 


from graphframes import * 
from pyspark import SparkContext 





利用 以 下 代码 创建 一 个 基于 CSYV 文件 内 容 的 GraphFrame 对 象 。 


Vv = spark.read.csv("data/social-nodes.csv", header=True) 
e = spark.read.csv("data/social-relationships.csv", header=True) 
g = GraphFrame(v, e) 


5.1.2 ”将 数据 导入 Neo4j 

向 Neo4j 加 载 数 据 ， 下 述 查 询 导 入 了 节点 : 
WITH "https://github.com/neo4j-graph-analytics/book/raw/master/data/" AS base 
WITH base + "social-nodes.csv" AS uri 


LOAD CSV WITH HEADERS FROM uri AS row 
MERGE (:User {id: row.id}) 


下 述 查 询 导 入 了 关系 : 


WITH "https://github.com/neo4j-graph-analytics/book/raw/master/data/" AS base 
WITH base + "social-relationships.csv" AS uri 
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LOAD CSV WITH HEADERS FROM uri AS row 
MATCH (source:User {id: row.src}) 

MATCH (destination:User {id: row.dst}) 
MERGE (source)-[:FOLLOWS]->(destination) 


图 已 经 加 载 完毕 ， 接 下 来 介绍 算法 。 


5.2 度 中 心性 算法 


度 中 心性 算法 是 本 书 中 最 简单 的 算法 。 它 计算 节点 的 输入 关系 数 和 输出 关系 数 ， 用 于 在 
中 查找 受 欢迎 的 节点 。 该 算法 是 1979 年 由 Linton C. Freeman 在 其 论文 “Centrality in Social 
Networks: Conceptual Clarification ”中 提出 的 。 





NH 














5.2.1 可 达 性 

了 解 节 点 的 可 达 性 是 一 种 相当 重要 的 度量 方法 。 节 点 的 度 是 其 拥有 的 直接 关系 数 ， 可 按 入 
度 和 出 度 两 种 指标 计算 。 可 以 将 其 视 为 节点 的 直接 可 达 度 ， 例 如 在 一 个 活跃 的 社交 网 络 
中 ， 度 较 高 的 人 会 有 很 多 直接 联系 人 ， 更 有 可 能 在 该 网 络 中 传播 流感 病毒 。 


网 络 的 平均 度 就 是 关系 总 数 除 以 市 点 总 数 得 到 的 值 ， 这 个 值 可 能 会 被 度 较 高 的 节点 严重 扭 
曲 。 度 分 布 是 指 随机 选择 的 节点 拥有 特定 关系 数 的 概率 。 


图 5-3 展示 了 某 在 线 论坛 各 主题 之 间 实 际 连接 分 布 的 差异 。 如 果 简 单 地 取 平 均值 ， 就 会 以 
为 大 多 数 主题 有 10 个 连接 ， 而 实际 上 大 多 数 主题 只 有 两 个 连接 。 




















大 多 数 主 题 有 两 个 连接 








lt 





10 20 30 40 
连接 数量 〈 度 ) 











5-3; Jacob Silterrapa 绘制 的 度 分 布 图 给 出 了 一 个 示例 ， 说 明 平均 值 往往 不 能 反映 网 络 的 实际 分 
布 (CC BY-SA 3.0) 
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这 些 指标 可 用 于 划分 网 络 类 型 ， 如 第 2 章 中 讨论 的 无 标 度 网 络 或 小 世界 网 络 。 它 们 还 有 助 
于 快速 评估 事物 在 网 络 中 传播 或 推广 的 可 能 性 。 


5.2.2 ” 何 时 使 用 度 中 心性 算法 
如 果 想 通过 研究 输入 关系 和 输出 关系 的 数量 来 分 析 影响 程度 ， 或 者 想 了 解 单个 节点 的 “ 受 
欢迎 程度 "， 请 使 用 度 中 心性 算法 。 当 需要 考虑 直接 连通 情况 或 近期 可 能 性 等 问题 时 ， 这 
种 算法 很 有 效 。 当 要 评估 整个 图 的 最 小 度 、 最 大 度 、 平 均 度 和 标准 差 时 ， 度 中 心性 算法 也 


适用 于 


示范 用 


通过 关系 〈 比 如 社交 网 络 中 的 关联 关系 ) 来 识别 


全 局 分 析 。 
例如 下 。 





影响 力 的 个 体 ， 





例如 在 BrandWatch 





的 “2017 年 Twitter 最 具 影 响 力 男 性 和 女性 ” 榜 单 中 ， 每 一 类 别 的 前 5 名 的 粉丝 都 超过 
4000 万 。 
区 分 诈骗 分 子 和 在 线 拍卖 网 站 的 合法 用 户 。 由 于 共 谍 的 目的 是 人 为 抬 价 ， 因 此 诈骗 分 
子 的 加 权 中 心 度 往往 要 高 得 多 。 请 参阅 Phiradet Bangcharoensap 等 人 的 论文 “Two Step 


Graph-Based Semi-Supervised Learning for Online Auction Fraud Detection” 。 


5.2.3 ”使 用 Spark 实 现 度 中 心性 算法 


使 用 以 下 代码 执行 度 中 心性 算法 : 


total_degree = g.degrees 


in 


out_degree = g.outDegrees 


_degree = g.inDegrees 


(total_degree.join(in degree, "id", how="left") 
.join(out_ degree, "id", how="left") 








.fillna(0) 
.Sort("inDegree", ascending=False) 
.Show()) 
首先 计算 总 的 入 度 和 出 度 ， 然 后 对 这 些 DataFrame 对 象 执 行 连 接 操作 ， 使 用 左 连接 来 保留 


没有 输入 关系 或 输 





在 PySpark 中 运行 以 上 代码 ， 结 果 如 下 所 示 : 





id degree inDegree outDegree 
Doug 6 5 入 
ALice 7 3 4 
Michael 5 2 3 
Bridget 5 汉 3 
Charles 2 1 1 


关系 的 节点 。 如 有 果 市 点 没有 关系 ， 则 使 用 fiLtna 函数 将 该 值 设 为 0。 
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Mark 3 1 2 
David 2 1 
Amy 于 于 0 
James 1 0 El 











图 5-4 显示 ，Doug 是 该 图 中 最 受 欢迎 的 用 户 ， 他 有 5 个 粉丝 (入 连接 )。 图 中 这 部 分 的 所 
有 用 户 都 关注 他 ， 而 他 只 关注 一 个 人 。 在 真实 的 Twitter 网 络 中 ， 名 人 的 粉丝 数量 众多 ， 但 
他 们 关注 的 人 往往 很 少 ， 因 此 可 以 认为 Doug 是 名 人 。 
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图 5-4: 度 中 心性 的 可 视 化 
如 果 要 创建 一 个 显示 最 受 关注 用 户 的 网 页 ， 或 者 想 推荐 可 关注 的 人 ， 就 可 以 使 用 该 算法 来 


识别 这 些 人 。 


有 些 数据 可 能 包含 关系 非常 稠密 (有 大 量 关 系 ) 的 节点 。 这 并 不 会 增加 太 多 
额外 信息 ， 但 是 会 扭曲 一 些 结果 或 增加 计算 复杂 度 。 应 该 通过 子 图 过 小 这 些 
稠密 的 关系 ， 或 者 采用 投影 方法 汇总 关系 权重 。 


5.3 ”接近 中 心性 算法 


接近 中 心性 算法 用 于 发 现 可 通过 子 图 高 效 传播 信息 的 节点 。 

















衡量 节点 中 心性 的 指标 是 其 到 其 他 各 节点 的 平均 距离 〈 反 距离 )。 接 近 中 心性 得 分 高 的 节 
点 与 其 他 各 节点 的 距离 最 短 。 





对 于 每 个 节点 ， 接 近 中 心性 算法 在 计算 所 有 节点 对 之 间 的 最 短路 径 的 基础 上 ， 还 要 计算 它 
到 其 他 各 节点 的 距离 之 和 ， 然 后 对 得 到 的 和 求 倒数 ， 以 确定 该 节点 的 接近 中 心性 得 分 。 


节点 的 接近 中 心性 计算 公式 为 : 


1 
C0)=— - 
- Dd) 


站 





中 : 


°° 1 为 节点 ; 
。 7 为 图 中 节点 数 ， 
。 d(u,v) 是 男 一 市 点 v 和 市 点 之 间 的 最 短 距 离 。 





更 常见 的 做 法 是 将 该 得 分 归 一 化 ， 以 此 表示 最 短路 径 的 平均 长 度 ， 而 不 是 最 短路 径 之 和 。 
利用 这 一 修正 方法 可 以 比较 在 不 同 规模 的 图 中 市 点 的 接近 中 心性 。 


接近 中 心性 的 归 一 化 公式 如 下 。 














7 一 1 
Con (u) i 
Did) 


5.3.1 何 时 使 用 接近 中 心性 算法 
当 需 要 知道 哪个 节点 的 传播 速度 最 快 时 ， 可 以 使 用 接近 中 心性 算法 。 在 评估 通信 和 行为 分 
析 中 的 交互 速度 时 ， 使 用 加 权 关 系 尤 其 有 用 。 





示范 用 例如 下 。 


。 发 现 处 于 有 利 位 置 的 个 体 ， 以 控制 和 获取 组 织 内 的 重要 信息 和 资源 。Valdis E. Krebs 的 
论文 “Mapping Networks of Terrorist Cells” 就 是 这 样 一 项 研究 。 
。 在 远程 通信 和 数据 包 传 递 中 作为 估算 到 达 时 间 的 局 发 式 国 数 ， 使 要 传递 的 信息 通过 最 短 
路 径流 向 预定 义 目 标 。 该 算法 也 可 用 于 揭示 通过 所 有 最 短路 径 同 时 进行 传播 的 情形 ， 例 
如 通过 局 部 社团 扩散 感染 。 更 多 细节 请 参阅 Stephen P Borgatti 的 论文 “Centrality and 
Network Flow 。 
以 基于 图 的 关键 短语 抽取 过 程 为 基础 ， 评 估 单 词 在 文档 中 的 重要 性 。Florian Boudin 在 
其 论文 “A Comparison of Centrality Measures for Graph-Based Keyphrase Extraction” 中 
阐述 了 该 过 程 。 
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始 公式 的 一 个 变 体 。 


5.3.2 ”使 用 Spark 实 现 接近 中 心性 算法 
Spark 没有 内 置 接近 中 心性 算法 ， 但 可 以 使 用 aggregateMessages 框架 来 
4.4.4 贡 介 绍 过 该 框架 。 
在 创建 函数 之 前 ， 先 导入 一 些 要 用 到 的 库 ， 
from graphframes.Lib import AggregateMessages as AM 
from pyspark.sql import functions as F 


from pyspark.sql.types import * 
from operator import itemgetter 


我 们 还 将 创建 一 些 用 户 自 定义 函数 ， 以 供 后 续 使 用 : 


def collect paths(paths): 
return F.collect set(paths) 


collect_ paths_udf = F.udf(collect paths, ArrayType(StringType())) 


paths_type = ArrayType( 


接近 中 心性 在 连通 图 上 效果 更 好 。 当 把 原始 公式 应 用 于 非 连通 图 时 ， 没 有 路 
径 的 两 个 节点 之 间 的 距离 是 无 穷 大 的 。 这 意味 着 如 果 将 到 该 节点 的 所 有 距离 
相 加 ， 将 得 到 无 穷 大 的 接近 中 心性 得 分 。 为 了 避免 这 个 问题 ， 后 文 将 介绍 原 


自己 实现 算法 ， 





StructType([StructField("id", StringType()), StructField("distance", 


def flatten(ids): 
flat_list = [item for sublist in ids for item in sublist] 
return list(dict(sorted(flat_ list, key=itemgetter(0))).items()) 


flatten_udf = F.udf(flatten, paths_type) 


def new_paths(paths, id): 
paths = [{"id": col1, "distance": col2 + 1} for coL1， 
col2 in paths if coL1 != id] 
paths.append({"id": id, "distance": 1}) 
return paths 


new_paths_udf = F.udf(new_paths, paths_type) 


def merge_paths(ids, new_ids, id): 
joined ids = ids + (new ids if new ids else []) 
merged ids = [(col1, col2) for col1, col2 in joined ids if col1 


!= id] 


best _ids = dict(sorted(merged ids, key=itemgetter(1), reverse=True)) 





return [{"id": col1, "distance": col2} for coL1，coL2 in best ids.items()] 


merge_paths_udf = F.udf(merge_paths, paths_type) 


def calculate closeness(ids): 


nodes = len(ids) 
total_distance = sum([col2 for col1, col2 in ids]) 


return 0 if total_distance == 0 else nodes * 1.0 / total distance 


closeness_udf = F.udf(calculate closeness, DoubleType()) 


计算 每 个 节点 接近 中 心性 得 分 的 主体 代码 如 下 : 


vertices = g.vertices.withColumn("ids", F.array()) 
cached_vertices = AM.getCachedDataFrame(vertices) 


g2 


= GraphFrame(cached_vertices, g.edges) 


for i in range(0, g2.vertices.count()): 


msg_dst = new_paths_udf(AM.src["ids"], AM.src["id"]) 
msg_src = new_paths_udf(AM.dst["ids"], AM.dst["id"]) 


agg = g2.aggregateMessages(F.collect set(AM.msg).alias("agg"), 
sendToSrc=msg_src, sendToDst=msg_dst) 
res = agg.withColumn("newIds", flatten_udf("agg")).drop("agg") 
New_vertices = (g2.vertices.join(res, on="id", how="left_outer") 
.withColumn("mergedIds", merge_paths_udf("ids", "newIds", 


"id")).drop("ids", "newIds") 

.withColumnRenamed("mergedIds", "ids")) 
cached_new_vertices = AM.getCachedDataFrame(new_vertices) 
g2 = GraphFrame(cached_new_vertices, g2.edges) 


(g2.vertices 
.withColumn("closeness", closeness_udf("ids")) 
.Sort("closeness", ascending=False) 
.Show(truncate=False)) 


运行 这 段 代码 ， 输 出 结果 如 下 所 示 : 








id ids closeness 

Doug [[Charles, 1], [Mark, 1], [Alice, 1], [Bridget, 1], [Michael, 1]] 1.0 

Alice [[Charles, 1], [Mark, 1], [Bridget, 1], [Doug, 1], [Michael, 1]] 1.0 

David [[James, 1], [Amy, 1]] 1.0 

Bridget [[Charles, 2], [Mark, 2], [Alice, 1], [Doug, 1], [Michael, 1]] 0.7142857142857143 
Michael [[Charles, 2], [Mark, 2], [Alice, 1], [Doug, 1], [Bridget, 1]] 0.7142857142857143 
James [[Amy, 2], [David, 1]] 0.6666666666666666 
Amy [[James, 2], [David, 1]] 0.6666666666666666 
Mark [[Bridget, 2], [Charles, 2], [Michael, 2], [Doug, 1], [Alice, 1]] 0.625 

Charles [[Bridget, 2], [Mark, 2], [Michael, 2], [Doug, 1], [Alice, 1]] 0.625 
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Alice、Doug 和 David 是 图 中 连接 最 密集 的 节点 ， 得 分 为 1.96， 这 意味 着 每 个 节点 都 与 这 部 
分 图 中 的 所 有 节点 直接 相连 。 图 5-5 表明 ， 尽 管 David 只 有 几 个 关系 ， 但 在 他 的 朋友 圈 中 
这 些 关系 非常 重要 。 换 言 之 ， 该 分 值 表示 每 个 用 户 在 其 子 图 (而 不 是 整个 图 ) 中 与 其 他 用 


户 的 亲密 程度 。 
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图 5-5: 接近 中 心性 的 可 视 化 


5.3.3 ”使 用 Neo4j 实 现 接 近 中 心性 算法 
Neo4j 使 用 下 述 公式 实现 接近 中 心性 算法 : 


n—l 


C a 
Wa > ” yd v) 





中 : 





Y 
人 


4 为 市 点 ; 
。 nn 是 与 4 位 于 同一 分 量 ( 子 图 或 群 组 ) 中 的 节点 的 数量 ; 
。 dlu,v) 是 另 一 个 市 点 v 与 4 之 间 的 最 短 距 离 。 





调用 以 下 程序 ， 计 算 图 中 每 个 市 点 的 接近 中 心性 得 分 : 


CALL algo.closeness.stream("User", "FOLLOWS") 
YIELD nodeId, centrality 

RETURN algo.getNodeById(nodelId).id, centrality 
ORDER BY centrality DESC 


运行 该 程序 ， 输 出 结果 如 下 所 示 : 








user centrality 





Alice 1.0 

Doug 1.8 

David 1.0 

Bridget 0.7142857142857143 
Michael 0.7142857142857143 
Amy 0.6666666666666666 
James 0.6666666666666666 
Charles 0.625 

Mark 0.625 


结果 与 Spark 算法 实现 的 相同 ， 与 之 前 一 样 ， 分 值 表示 他 们 与 子 


他 用 户 的 亲密 程度 。 


根据 接近 中 心性 算法 的 严格 解释 ， 











在 理想 情况 下 ， 我 们 希 
的 一 些 变 体 。 

















里 
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受 | 








望 得 到 整个 图 的 接近 中 心性 指标 ， 


中 所 有 节点 的 得 分 都 是 = ， 








大 








是 整个 





图 ) 中 寺 


-| 


因为 每 个 市 





点 至 少 有 一 个 无 法 到 达 的 节点 ， 不 过 按照 每 个 分 量 分 别 计算 得 分 通常 更 有 用 。 


此 接 下 来 介绍 接近 中 心性 算法 


5.3.4 ”接近 中 心性 算法 变 体 : Wasserman & Faust 算 法 


Stanley Wasserman 和 Katherine Faust 提出 了 一 个 改进 公式 ， 用 于 计算 包含 多 个 非 连通 子 图 





的 图 的 接近 中 心性 得 分 。 他 们 在 《社会 网 络 分 析 : 方法 与 应 用 》 





书 中 





详细 介绍 了 该 公 


式 。 该 公式 得 到 的 结果 是 群 组 中 可 达 市 点 数 与 到 可 达 市 点 平均 距离 的 比值 。 























公式 如 下 : 
n—l n—l 

Cwr (1) = 

加 | 
其 中 : 
。 2 为 节点 ; 
NN 为 总 的 节点 数 ， 
。 7 是 与 在 同一 分 量 中 的 节点 的 数量 ; 


。 dlu,v) 是 另 一 市 点 v 到 的 最 短 距离 。 


传递 参数 improved: true， 告 诉 接近 中 心性 计算 程序 采用 该 公式 。 





中 
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下 面 的 查询 使 用 Wasserman & Faust 公式 来 执行 接近 中 心性 算法 : 


CALL algo.closeness.stream("User", "FOLLOWS", {improved: true}) 
YIELD nodelId, centrality 

RETURN algo.getNodeById(nodelId).id AS user, centrality 

ORDER BY centrality DESC 


结果 如 下 所 示 : 

USser centrality 

Alice 9.5 

Doug 0.5 

Bridget 0.35714285714285715 
Michael 0.35714285714285715 
Charles 0.3125 

Mark 0.3125 

David 0.125 

Amy 0.08333333333333333 
James 0.08333333333333333 


如 图 5-6 所 示 ， 现 在 的 结果 更 能 代表 整个 





ES 





中 各 节点 的 亲密 程度 。 较 小 子 图 的 成 员 (David、 











Amy 和 James) 的 得 分 已 经 降低 ， 现 在 他 们 在 所 有 用 户 中 的 得 分 最 低 。 这 是 合理 的 ， 因 为 他 们 
是 抓 立 的 节点 集 。 该 公式 对 于 检测 一 个 节点 在 整个 图 (而 不 是 在 其 子 图 ) 中 的 重要 性 更 有 用 。 




















图 5-6: 接近 中 心性 的 可 视 化 
下 面 介绍 调和 中 心性 算法 ， 该 算法 使 用 另 一 个 公式 计算 接近 中 心性 得 分 ， 可 以 得 到 相似 的 


结果 。 





5.3.5 ”接近 中 心性 算法 变 体 : 调和 中 心性 算法 

调和 中 心性 (Harmonic Centrality， 也 称 Valued Centrality) 算法 是 接近 中 心性 算法 的 一 种 
变 体 ， 是 为 了 解决 非 连通 图 的 固有 问题 而 发 明 的 。 在 “Harmony in a Small World” 这 篇 论 
文中 ，Massimo Marchiori 和 Vito Latora 将 此 概念 作为 平均 最 短路 径 的 实际 表示 形式 。 

















在 计算 每 个 市 点 的 亲密 度 分 值 时 ， ee Te 
距离 的 倒数 相 加 ， 这 意味 着 ~“ 值 变 得 无 关 紧要 了 。 





原始 的 节点 调和 中 心性 计算 公式 如 下 : 


me 


= > 可 

















其 中 : 

。 UU 是 布点; 

。 是 图 中 的 节点 数 ; 

。 d(u,v) 是 另 一 布点 v 到 ww 的 最 短 距离 。 

对 于 接近 中 心性 ， 也 可 以 用 以 下 公式 计算 归 一 化 调和 中 心性 得 分 : 


7 一 ] 1 
do 
n—l 








po (1) = 


在 该 公式 中 ，% 值 得 到 妥善 处 理 。 


Neo4j 实现 调和 中 心性 算法 
述 查 询 执 行 调和 中 心性 算法 : 


CALL algo.closeness.harmonic.stream("User", "FOLLOWS") 
YIELD nodelId, centrality 


RETURN algo.getNodeById(nodelId).id AS user, centrality 
ORDER BY centrality DESC 


运行 该 程序 ， 结 果 如 下 所 示 : 








user centrality 
Alice 0.625 

Doug 0.625 
Bridget 0.5 
Michael Qs 
Charles 0.4375 
Mark 0.4375 
David 0.25 

Amy 0.1875 
James 0.1875 
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该 算法 的 结果 与 原始 接近 中 心性 算法 有 所 不 同 ， 但 与 改进 的 Wasserman & Faust 算法 的 结 
果 相 似 。 当 处 理 具 有 多 个 连通 分 量 的 图 时 ， 可 以 使 用 这 两 种 算法 。 


委 \Y ~ 
5.4 中 间 中 心性 算法 
在 某 些 系统 中 ， 最 关键 的 要 素 并 不 是 拥有 绝对 权威 或 最 高 地 位 的 要 素 。 有 时 是 中 间 人 将 各 
个 群体 联系 起 来 ， 或 者 说 ， 中 间 人 对 资源 或 信息 流 的 控制 权 最 大 。 中 间 中 心性 算法 检测 节 
点 对 图 中 信息 流 或 资源 的 影响 程度 ， 通 常用 于 查找 将 图 的 一 部 分 与 男 一 部 分 桥接 的 节点 。 
中 间 中 心性 算法 计算 连通 图 中 每 对 节点 之 间 的 最 短 (加 权 ) 路 径 。 每 个 节点 的 分 值 根据 通 
过 该 节点 的 最 短路 径 数 量 确定 。 通 过 节点 的 最 短路 径 数 量 越 多 ， 其 得 分 就 越 高 。 























1977 年 ，Linton C. Freeman 在 其 论文 “A Set of Measures of Centrality Based on Betweenness” 
中 提出 中 间 中 心性 ， 并 将 其 称 为 “关于 中 心性 的 3 个 截然 不 同 的 直观 概念 ”之 一 。 


5.4.1 桥 与 控制 点 

网 络 中 的 桥 可 以 是 节点 或 关系 。 在 非常 简单 的 图 中 ， 可 以 通过 查找 节点 或 关系 来 寻找 桥 。 
如 果 删 除 某 一 节点 或 关系 将 导致 图 的 某 个 部 分 不 连通 ， 那 么 该 市 点 或 关系 就 是 桥 。 然 而 ， 
这 种 方法 在 典型 的 图 中 并 不 实用 ， 我 们 采用 中 间 中 心性 算法 。 还 可 以 将 群 组 视 为 节点 ， 借 
此 度量 徐 的 中 间 中 心性 。 


如 果 一 个 节点 位 于 另外 两 个 节点 之 间 的 每 一 条 最 短路 径 上 ， 则 该 节点 是 这 两 个 节点 的 中 枢 
节点 ， 如 图 5-7 所 示 。 

















A 和 B 的 中 枢 节 点 
以 深 色 表 示 








添加 














图 5-7: 中 枢 节点 位 于 两 个 节点 之 间 的 每 条 最 短路 径 上 。 创 建 更 多 最 短路 径 可 以 减少 中 枢 节点 的 数量 ， 
可 用 于 降低 风险 等 方面 


中 枢 节 点 在 连接 其 他 节点 方面 发 挥 着 重要 作用 一 一 如 果 删 除 一 个 中 枢 节 点 ， 则 原 节 点 对 之 
间 新 的 最 短路 径 将 更 长 或 代价 更 高 。 这 可 以 作为 评估 单 点 脆弱 性 的 一 个 考虑 因素 。 











5.4.2 计算 中 间 中 心性 得 分 


对 所 有 最 短路 径 ， 将 下 述 公 式 的 结果 相 加 以 计算 市 点 的 中 间 中 心性 得 分 : 


Bl(u)= >， 














。 为 市 点 s 和 上 之 间 最 短路 径 的 总 数 ， 
。 P(O 为 * 与 1 之 间 通 过 市 点 u 的 最 短路 径 的 数量 。 





5-8 展示 了 计算 中 间 中 心性 得 分 的 步骤 。 


























针对 节点 D 计 算 
QQ 通过 D 的 最 短 节点 对 之 间 的 占 通过 D 最 短路 
及” 室 路 径 节点 对 ”最 短路 径 总 数 ” 径 数 的 百分比 
EE . 六 AE 1 1 (100%) 
[AX © © a B,E 1 1 (100%) 
i 7 强 
二 EE GE 1 1 (100%) 
Ro B,C 2 (分 别 经 过 D 和 A) 0.5 (50%) 
o 中 间 中 心性 得 分 35 
5-8: 计算 中 间 中 心性 得 分 的 基本 理念 
计算 过 程 如 下 。 
1. 对 每 个 节点 ， 找 出 通过 它 的 最 短路 径 。B、C、E 没有 通过 它们 的 最 短路 径 ， 因 此 赋值 
为 0。 


2. 对 于 步骤 1 中 的 每 条 最 短路 径 ， 计 算 其 占 这 对 节点 间 可 能 最 短路 径 数 的 百分比 。 

3. 将 步骤 2 中 的 所 有 值 相 加 ， 得 到 节点 的 中 间 中 心性 得 分 。 图 5-8 中 的 列表 展示 了 针对 市 
点 D 执行 步骤 2 和 步骤 3 的 过 程 。 

4. 对 每 个 市 点 重复 该 过 程 。 














5.4.3” 何 时 使 用 中 间 中 心性 算法 


中 间 中 心性 算法 适用 于 解决 现实 网 络 中 的 许多 问题 ， 比 如 查找 瓶颈 点 、 控 制 点 和 脆弱 点 。 


示范 用 例如 下 。 
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。 识别 各 类 组 织 中 有 影响 力 的 人 。 有 权势 的 人 并 不 一 定 在 管理 岗位 ， 使 用 中 间 中 心性 算法 


到 








可 能 在 “中间人 岗位 ”上 发 现 这 样 的 人 。 撤 去 这 些 有 影响 力 的 人 会 严重 削弱 组 织 的 活力 。 
对 于 犯罪 组 织 ， 抓 获 其 头目 是 执法 部 门 的 目标 ， 但 如 果 企 业 失 去 了 被 低估 的 关键 员工 ， 
对 其 而 言 将 是 























场 灾难 。Carlo Morselli 和 Julie Roy 的 论文 “Brokerage Qualifications in 











Ringing Operations” 对 此 有 更 详细 的 介绍 。 


。 发 现 像 电 网 这 相 





的 网 络 中 的 关键 传输 点 。 有 点 违背 直觉 的 是 ， 移 除 特 定 桥 接点 实际 上 





可 以 隔离 和 干扰， 增强 整体 稳健 性 。Ricard Solé 等 人 在 论文 “Robustness of the European 
Power Grids Under Intentional Attack” 中 给 出 了 更 多 研究 细节 。 








。 通过 针对 有 影响 力 者 的 推荐 引擎 ， 帮 助 用 户 在 Twitter 上 传播 影响 力 。Shanchan Wu 等 
人 在 论文 “Making Recommendations in a Microblog to Improve the Impact of a Focal User” 
中 描述 了 这 种 方法 。 














中 间 中 心性 算法 假设 节点 之 间 的 所 有 通信 都 是 治 着 最 短路 径 进 行 的 ， 并 且 频 
率 相同 ， 但 在 现实 生活 中 并 不 总 是 这 样 。 因 此 ， 它 并 没有 为 查找 图 中 最 有 影 
响 力 的 节点 提供 完美 的 方法 ， 而 是 做 了 很 好 的 示范 。Mark Newman 在 《网 络 
科学 引 论 》 一 书 中 有 详细 解释 。 












































5.4.4 ”使 用 Neo4j 实 现 中 间 中 心性 算法 
Spark 没有 内 置 中 间 中 心性 算法 ， 所 以 在 此 使 用 Neo4j 演示 该 算法 。 调 用 下 面 的 程序 将 计 
算 图 中 每 个 节点 的 中 间 中 心性 得 分 : 








CALL algo.betweenness.stream("User", "FOLLOWS") 

YIELD nodelId, centrality 

RETURN algo.getNodeById(nodelId).id AS user, centrality 
ORDER BY centrality DESC 


运行 该 程序 ， 结 果 如 下 所 示 : 





USer centrality 
Alice 10.0 
Doug Zs 
Mark 7.0 
David 1.0 
Bridget 0.0 
Charles 0.0 
Michael 0.0 
Amy .8 
James 0.0 





如 图 5-9 所 示 ，Alice 是 该 网 络 中 的 主要 中 间 人 ， 而 Mark 和 Doug 也 并 不 落后 。 在 那个 较 














小 的 子 











到 中 ， 所 有 最 短路 径 都 要 经 过 David， 因 此 他 对 这 些 市 点 之 间 的 信息 流通 非常 重要 。 
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图 5-9: 中 间 中 心性 的 可 视 化 

对 于 大 型 图 ， 精 确 计算 中 心性 得 分 并 不 实用 。 要 精确 计算 所 有 节点 的 中 间 中 
心性 得 分 ， 目 前 最 快 的 算法 的 运行 时 间 与 节点 数量 和 关系 数量 的 乘积 成 正比 。 
我 们 希望 首先 通过 筛选 形成 子 图 ， 或 者 针对 节点 的 子 集 应 用 这 些 算法 ( 稍 后 
介绍 )。 
可 以 将 两 个 不 连通 的 分 量 连接 在 一 起 ， 做 法 是 引入 一 个 新 用 户 Jason， 来自 这 两 组 用 户 的 
人 都 会 关注 他 或 者 被 他 关注 : 


WITH ["James", "Michael", "Alice", "Doug", "Amy"] AS existingUsers 








MATCH (existing:User) WHERE existing.id IN existingUsers 
MERGE (newUser:User {id: "Jason"}) 


MERGE (newUser)<-[:FOLLOWS]-(existing) 
MERGE (newUser)-[:FOLLOWS]->(existing) 


如 果 重 新 运行 该 算法 ， 输 出 结果 将 如 下 所 示 : 








user centrality 

Jason 44.33333333333333 

Doug 18.333333333333332 
Alice 16.666666666666664 
Amy 8.0 

James 8.0 

Michael 4.0 

Mark 2.1666666666666665 
David 0.5 

Bridget 0.0 

Charles 0.0 
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Jason 的 得 分 最 高 ， 这 是 因为 两 组 用 户 通 过 他 实现 交流 。 可 以 把 Jason 视 为 这 两 组 用 户 之 间 
的 局 部 桥 ， 如 图 5-10 所 示 。 
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图 5-10: Jason 的 中 间 中 心性 可 视 化 











在 继续 介绍 之 前 ， 先 删除 Jason 及 其 关系 以 重 置 图 。 


MATCH (user:User {id: "Jason"}) 
DETACH DELETE user 


5.4.5 中 间 中 心性 算法 变 体 : RA-Brandes 算 法 
回想 一 下 ， 要 在 大 型 图 上 准确 计算 中 间 中 心性 得 分 ， 代 价 非常 高 。 因 些 ， 可 以 选用 一 种 运 
行 速度 快 得 多 但 仍然 可 以 提供 有 用 (尽管 不 精确 ) 信息 的 近似 算法 。 


RA-Brandes 算法 是 近似 计算 中 间 中 心性 得 分 的 著名 算法 。 它 只 考虑 节点 的 一 个 子 集 ， 而 不 
计算 每 对 节点 之 间 的 最 短路 径 。 选 择 节 点 子 集 的 两 种 常见 策略 如 下 。 


口 随机 方式 
均匀 ， 随 机 选取 节点 ， 选 取 概 率 确定 。 默 认 概率 为 “ge 。 如 果 概 率 为 1， 则 算法 与 
常规 中 间 中 心性 算法 一 样 ， 要 加 载 全 部 节点 


口 度 方 式 
随机 选取 节点 ， 但 自动 排除 那些 度 低 于 平均 值 的 节点 (只 有 具有 大 量 关系 的 节点 才 有 可 
能 被 访问 )。 


要 进一步 优化 ， 还 可 以 限制 最 短路 径 算 法 的 深度 ， 使 之 提供 全 部 最 短路 径 的 一 个 子 集 。 




































































口 使 用 Neo4j 实现 中 间 中 心性 的 近似 算法 
下 面 的 查询 使 用 随机 选取 方式 执行 RA-Brandes 算法 : 














CALL algo.betweenness.sampled.stream("User", "FOLLOWS", {strategy:"degree"}) 
YIELD nodelId, centrality 

RETURN algo.getNodeById(nodelId).id AS user, centrality 

ORDER BY centrality DESC 


运行 该 程序 ， 结 果 如 下 所 示 : 








user centrality 
Alice 9.0 
Mark 9.0 
Doug 4.5 
David 2.25 
Bridget 0.0 
Charles 0.0 
Michael 0.0 
Amy 0.0 
James 0.0 


虽然 现在 Mark 排 在 Doug 之 前 ， 但 最 有 具 影 响 力 的 几 个 人 物 还 是 和 以 前 差不多 。 


由 于 该 算法 具有 随机 性 ， 因 此 每 次 的 运行 结果 可 能 不 同 。 相 比 小 样本 图 ， 这 种 随机 性 对 大 
型 图 的 影响 更 大 。 



































5.5 PageRank 算法 


PageRank 算法 可 能 是 最 著名 的 中 心性 算法 。 它 度量 节点 的 传递 性 (或 方向 性 ) 影响 。 前 男 
讨论 的 其 他 所 有 中 心性 算法 都 是 度量 节点 的 直接 影响 ，PageRank 算法 则 考虑 节点 的 邻 节点 
的 影响 ， 以 及 其 邻 节 点 的 邻 节 点 的 影响 。 例 如 与 拥有 一 大 堆 影 响 力 小 的 朋友 相 比 ， 拥 有 几 
个 很 有 影响 力 的 朋友 能 让 人 更 有 影响 力 。PageRank 算法 的 计算 方法 有 两 种 : 一 种 是 将 一 个 
节点 的 等 级 迭代 分 散 到 其 邻 节点 ， 另 一 种 是 随机 遍历 图 并 计算 每 个 节点 在 遍历 过 程 中 被 命 
中 的 频率 。 


PageRank 算法 是 以 谷歌 公司 联合 创始 人 Larry Page 的 姓氏 命名 的 ，Larry Page 创建 
PageRank 算法 的 初 囊 是 在 谷歌 的 搜索 结果 中 对 网 站 进行 评级 。 其 基本 假设 是 ， 一 个 网 页 如 
果 有 更 多 或 更 有 影响 力 的 输入 链接 ， 就 更 有 可 能 是 可 信 来 源 。PageRank 算法 度量 节点 输入 
关系 的 数量 和 质量 ， 以 此 估计 该 节点 的 重要 性 。 在 网 络 中 ， 如 果 节 点 拥有 的 来 自 其 他 有 影 
响 力 节点 的 输入 关系 越 多 ， 那 么 它 就 越 可 能 在 网 络 中 占据 主导 地 位 。 
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5.5.1 影响 力 

直观 地 说 ， 相 对 于 那些 不 太 重 要 的 节点 而 言 ， 与 较为 重要 的 节点 相连 对 节点 的 影响 更 大 。 
衡量 影响 力 通 常 涉及 对 节点 的 评分 ， 要 用 到 加 权 关 系 ， 之 后 还 要 在 多 次 迭代 中 更 新 分 值 。 
有 了 时 要 对 所 有 节点 进行 评分 ， 但 有 时 也 可 随机 选取 节点 作为 代表 性 样本 。 








请 记 住 ， 中 心性 指标 代表 了 某 节 点 相对 于 其 他 节点 的 重要 性 。 中 心性 是 对 节 
点 淆 在 影响 力 的 排序 ， 而 不 是 对 实际 影响 力 的 度量 。 比 如 说 ， 在 网 络 中 有 两 
个 人 处 于 中 心地 位 ， 但 可 能 由 于 种 种 原因 ， 其 实际 影响 力 会 转移 到 其 他 人 身 
上 。 量 化 实际 影响 力 是 设计 附加 影响 指标 中 很 活跃 的 一 个 研究 领域 。 























5.5.2” PageRank 算法 公式 
谷歌 公司 在 最 初 的 论文 中 将 PageRank 算法 定义 为 : 





PRO) =(1-4d)1 a ME a a 


CO0D C(O) 
解释 如 下 。 


。 假设 页 面 u 中 含有 从 第 71 页 到 第 Tn 页 的 引用 。 

。 d 是 取 值 介 于 0 ~ 1 的 阻尼 系数 , 通常 设 为 0.85。 可 以 将 其 视 为 用 户 将 持续 单 击 的 概率 。 
这 有 助 于 最 小 化 等 级 沉没 ， 稍 后 解释 。 
1- qd 是 不 考虑 任何 关系 直接 到 达 节 点 的 概率 。 
C(77) 定义 为 节点 了 的 出 度 。 




















5-11 展示 了 PageRank 算法 如 何 持 续 更 新 市 点 等 级 ， 直 到 算法 收敛 或 满足 设置 的 迭代 次 
数 为 止 。 











节点 值 = i (ny 链接 值 = 0 


六 


一 全 一 全 


步骤 1 
节点 值 = 此 前 入 度 之 和 链接 值 = 名 点 入 /入 点 出 度 


一。 


一 令 一 全 


轮 本 2 0.25 025 
t 人 人 033 


0.17 © 


0.17 0.17 
0.42 


甘 
汝 


























迭代 持续 到 收敛 于 某 个 解 
04 02 或 固定 求解 范围 ， 或 者 达 
02 到 进 代 次 数 为 止 














图 5-11; PageRank 算法 的 每 次 迭代 都 有 两 个 计算 步骤 ， 一 个 更 新 节点 值 ， 另 一 个 更 新 链接 值 


5.5.3 迭 代 、 随 机 冲浪 者 和 等 级 沉没 


PageRank 算法 是 一 种 迭代 算法 ， 它 要 么 运行 到 分 值 收 敛 为 止 ， 要 么 运行 到 一 定 迭 代 次 数 为 止 。 
从 概念 上 讲 ，PageRank 算法 假定 有 一 个 Web 冲浪 者 通过 链接 或 随机 URL 访问 页 面 。 阻 尼 系 数 
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4 定义 了 下 一 次 通过 该 链接 单 击 的 概率 。 可 以 将 其 视 为 Web 冲浪 者 感到 无 聊 并 随机 切换 到 另 
一 个 页 面 的 概率 。PageRank 评分 反映 了 通过 输入 链接 访问 而 非 随机 访问 一 个 页 面 的 可 能 | 














没有 输出 关系 的 节点 〈 也 称 悬 挂 节点 ) 或 节点 分 组 可 以 通过 拒绝 共享 而 独占 PageRank 得 
分 ， 这 就 是 所 谓 的 等 级 沉没 。 可 以 把 这 想象 成 一 个 Web 冲浪 者 被 困 在 某 个 页 面 或 者 页 面子 
集中 没有 出 路 。 男 一 个 难题 是 由 分 组 中 的 各 市 点 仅 相 互 指向 对 方 而 造成 的 。 当 Web 冲浪 者 
在 市 点 之 间 来 回 跳 转 时 ， 循 环 引 用 会 导致 其 等 级 升 高 。 这 些 情况 如 图 5-12 所 示 。 























等 级 沉没 独占 评级 得 分 

















4— A 是 一 个 没有 输出 关系 的 悬挂 节点 ， 隐 形 传 态 用 于 
解决 端点 问题 

















人  - 息 C、D 和 E 形 成 循环 引用 ， 没 有 走出 群 组 的 路 径 。 可 
人 2 借助 阻尼 系数 引入 随机 节点 访问 


5-12; 等 级 沉没 是 因为 一 个 节点 或 节点 分 组 没有 输出 关系 


有 两 种 策略 可 以 避免 等 级 沉没 。 首 先 ， 当 到 达 一 个 没有 和 输出 关系 的 节点 时 ，PageRank 算法 
假设 它 到 所 有 节点 都 有 输出 关系 。 穿 越 这 些 看 不 见 的 关联 关系 有 时 也 被 称 为 隐形 传 态 。 其 
次 ， 阻 尼 系 数 提供 了 另 一 种 避免 等 级 沉没 的 方法 ， 相 对 于 直接 链接 ， 引 入 了 随机 节点 访问 
的 概率 。 当 把 4 设 为 0.85 时 ， 完 全 访问 随机 市 点 的 概率 为 15%。 

















虽然 原始 公式 建议 阻尼 系数 取 0.85， 但 这 起 初 适用 于 万 维 网 上 链接 的 震 律 分 布 (大 多 数 页 
下 的 链接 很 少 ， 少 数 页 面 有 很 多 链接 ) 。 降 低 阻 尼 系 数 会 降低 在 随机 跳 转 之 前 沿 着 长 关系 
路 径 前 进 的 可 能 性 ， 反 之 将 增加 市 点 的 前 一 个 市 点 对 其 得 分 和 评级 的 贡献 。 


如 果 通 过 PageRank 算法 得 到 了 意外 的 结果 ， 那 么 有 必要 对 该 图 进行 探索 性 分 析 ， 以 判断 
原因 是 否 源 自 上 述 这 些 问 题 。 可 以 阅读 Ian Rogers 的 文章 “The Google PageRank Algorithm 
and How It Works” 了 解 更 多 内 容 。 



































5.5.4 何 时 使 用 PageRank 算 法 

PageRank 算法 现 已 用 于 Web 索引 之 外 的 诸多 领域 。 当 在 网 络 上 寻找 具有 广泛 影响 力 的 节 
点 时 ， 可 使 用 该 算法 ， 例 如 当 你 想 寻 找 对 生物 功能 整体 影响 最 大 的 基因 时 ， 可 能 找到 的 并 
非 关联 关系 最 多 的 基因 ， 而 是 与 其 他 重要 功能 联系 最 密切 的 基因 。 
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示范 用 例如 下 。 





。 向 用 户 推荐 他 们 可 能 感 兴趣 的 账户 〈Twitter 为 此 使 用 了 个 性 化 PageRank 算法 )。 该 算 
法 可 在 含有 共享 兴趣 爱好 和 公共 连接 的 图 上 运行 。 

。 预测 公共 空间 或 街道 的 交通 流量 和 人 类 活动 。 该 算法 可 在 含有 道路 交叉 口 的 图 上 运行 ， 

其 中 PageRank 评分 反映 了 人 们 在 每 条 街道 上 停车 或 结束 旅程 的 意向 。Bin Jiang、Sijian 
Zhao 和 Junjun Yin 的 论 文 “Self-Organized Natural Roads for Predicting Traffic Flow: A 
Sensitivity Study” 对 此 有 详细 阐述 。 

。 应 用 于 医疗 行业 和 保险 行业 的 异常 和 欺诈 检测 系统 。PageRank 算法 有 助 于 揭示 医生 或 
供应 商 的 异常 行为 ， 然 后 可 以 将 得 到 的 分 值 输入 机 器 学 习 算 法 中 。 


David Gleich 在 论文 “PageRank Beyond the Web” 中 介绍 了 该 算法 的 更 多 应 用 。 


5.5.5 ”使 用 Spark 实 现 PageRank 算 法 
下 面 准备 运行 PageRank 算法 。GraphFrames 支持 两 种 PageRank 算法 实现 。 






































。 第 1 个 实现 以 固定 次 数 选 代 运行 PageRank 算法 。 这 可 以 通过 设置 naxIter 参数 来 完成 。 
。 第 2 个 实现 运行 PageRank 算法 ， 直 至 收敛 。 这 可 以 通过 设置 tol 参数 来 完成 。 

1. 具有 固定 迭代 次 数 的 PageRank 算法 

看 一 个 采用 固定 迭代 方法 的 例子 : 














results = g.pageRank(resetProbability=0.15, maxIter=20) 
results.vertices.sort("pagerank", ascending=False).show() 


注意 ， 在 Spark 中 将 阻尼 系数 直观 地 称 作 重 置 概率 ， 其 值 为 反 向 值 。 换 言 之 ， 
本 例 中 的 resetProbability=0.15 等 价 于 Neo4j 中 的 dampingFactor:0.85。 


在 PySpark 中 运行 以 上 代码 ， 输 出 结果 如 下 所 示 : 





id pageRank 

Doug 2.2865372087512252 
Mark 2.1424484186137263 
Alice 1.520330830262095 
Michael 0.7274429252585624 
Bridget 0.7274429252585624 
Charles 0.5213852310709753 
Amy 0.5097143486157744 
David 0.36655842368870073 
James 0.1981396884803788 
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正如 预期 ，Doug 的 PageRank 得 分 最 高 ， 这 是 因为 其 子 图 中 所 有 用 户 都 关注 他 。 虽 然 
Mark 只 有 一 个 关注 者 ， 但 因为 关注 者 是 Doug， 所 以 Mark 在 该 图 中 也 很 重要 。 重 要 的 不 
仅 是 关注 者 的 数量 ， 还 有 关注 者 自身 的 重要 程度 。 


















































运行 PageRank 算法 的 图 并 没有 对 关系 加 权 ， 因 此 每 个 关系 都 是 平等 的 。 通 
过 在 关系 DataFrame 中 指定 weight 列 ， 可 以 为 关系 添加 权重 。 








2. 运行 PageRank 算法 ， 直 至 收敛 
下 面试 试 收敛 方式 的 算法 实现 ， 它 将 运行 PageRank 算法 ， 直 到 结束 于 容 差 范围 内 的 革 个 解 ; 


results = g.pageRank(resetProbability=0.15, tol=0.01) 
results.vertices.sort("pagerank", ascending=False).show() 


在 PySpark 中 运行 这 段 代码 ， 输 出 结果 如 下 所 示 : 











id pageRank 

Doug 2.2233188859989745 
Mark 2.090451188336932 
Alice 1.5056291439101062 
Michael 0.733738785109624 
Bridget 0.733738785109624 
Amy 0.559446807245026 
Charles 0.5338811076334145 
David 0.40232326274180685 
James 0.21747203391449021 





每 个 人 的 PageRank 得 分 与 固定 迭代 次 数 的 算法 实现 略 有 不 同 ， 但 是 正如 预期 ， 排 序 仍然 
基本 相同 。 


尽管 最 理想 的 情况 是 收敛 于 最 优 解 ， 但 是 在 某 些 情况 下 ，PageRank 算法 无 法 
做 到 数学 上 的 收敛 。 对 于 大 型 图 ，PageRank 算法 的 运行 时 间 可 能 会 非常 长 。 
采用 容 差 限制 有 助 于 为 收敛 结果 设置 一 个 可 接受 的 范围 ， 但 是 许多 人 选择 用 
(或 结合 这 种 方法 ) 最 大 迭代 次 数 方式 来 代替 。 最 大 迭代 设置 通常 可 以 提供 
更 好 的 性 能 一 致 性 。 无 论 选 择 哪 种 方式 ， 都 需要 测试 不 同 边界 才能 找到 适合 
数据 集 的 方法 。 与 中 型 图 相 比 ， 大 型 图 通常 需要 更 多 迭代 次 数 或 更 小 的 容 差 
范围 才能 获得 更 高 的 精度 。 













































































5.5.6 ”使 用 Neo4j 实 现 PageRank 算 法 


还 可 以 在 Neo4 平台 上 运行 PageRank 算法 。 调 用 下 面 的 程序 将 计算 图 中 每 个 节点 的 PageRank 
得 分 : 








CALL algo.pageRank.stream('User', 'FOLLOWS', {iterations:20, dampingFactor:0.85}) 


YIELD nodeId，score 
RETURN aLgo.getNodeById(nodeId) .id AS page, score 
ORDER BY score DESC 


运行 该 程序 ， 结 果 如 下 所 示 : 





















































page score 
Doug 1.6704119999999998 
Mark 1.5610085 
Alice 1.1106700000000003 
Bridget 0.535373 
Michael 8.535373 
Amy 0.385875 
Charles 0.3844895 
David 652775 
James 0.15000000000000002 
与 Spark 示例 一 样 ，Doug 是 其 中 最 有 影响 力 的 用 户 ，Mark 紧 随 其 后 ， 他 是 Doug 唯一 关 
注 的 用 户 。 图 5-13 展现 了 节点 的 相对 重要 性 。 
5-13: PageRank 算法 的 可 视 化 

PageRank 算法 的 实现 各 不 相同 ， 因 此 即使 排序 相同 ， 评 分 也 可 能 不 同 。Neo4j 

用 1 减 去 阻尼 系数 得 到 的 值 来 初始 化 节点 ， 而 Spark 使 用 1 来 初始 化 。 在 这 

种 情况 下 ， 得 到 的 相对 等 级 (PageRank 算法 的 目标 ) 是 相同 的 ， 但 用 于 得 

这 些 结果 的 基础 评分 值 不 同 。 

中 心性 算法 | 89 





与 Spark 示例 一 样 ， 这 里 在 运行 PageRank 算法 时 ， 图 中 的 关系 没有 加 
权 ， 因 此 每 个 关系 都 是 平等 的 。 在 传递 给 PageRank 程序 的 配置 中 包含 
weightProperty 属性 ， 通 过 该 属性 可 以 设置 关系 权重 。 例 如 关系 的 属性 
weight 代表 权重 ， 可 以 把 下 述 配置 传递 给 程序 : weightProperty: "weight"。 


























5.5.7 PageRank 算法 变 体 : 个 性 化 PageRank 算 法 

个 性 化 PageRank (personalized PageRank，PPR) 是 PageRank 算法 的 一 种 变 体 ， 它 从 特定 
节点 出 发 ， 计 算 图 中 节点 的 重要 程度 。 对 于 PPR， 随 机 跳 转 指 的 是 返回 到 给 定 的 起 始 节点 
集 。 这 种 偏向 性 结果 (或 者 说 个 性 化 ) 针对 的 是 起 始 节点 。 这 种 偏向 和 本 地 化 使 得 PPR 对 
于 靶 向 性 强 的 推荐 非常 有 用 。 





使 用 Spark 实现 个 性 化 PageRank 算法 
可 以 通过 传递 sourceId 参数 来 计算 给 定 节 点 的 PPR 得分。 下面 的 代码 计算 Doug 的 PPR 
得 分 : 





me = "Doug" 
results = g.pageRank(resetProbabiLity=0.15，maxIter=20，sourceId=me) 
people_to follow = results.vertices.sort("pagerank", ascending=False) 


aLready_foLLows = list(g.edges.filter(f"src = '{me}'").toPandas()["dst"]) 
people_to_exclude = already_follows + [me] 


people_to_follow[~people_to follow.id.isin(people_ to _exclude)].show() 


该 查询 结果 可 用 于 向 Doug 推荐 可 关注 的 人 。 请 注意 ， 还 要 确保 在 最 终结 果 中 排除 Doug 
已 经 关注 的 人 和 他 自己 。 




















在 PySpark 中 运行 以 上 代码 ， 输 出 结果 如 下 所 示 : 





id pageRank 

Alice 0.1650183746272782 
Michael 0.048842467744891996 
Bridget 0.048842467744891996 
Charles 0.03497796119878669 
David 0.0 

James 0.0 

Amy 0.0 


Alice 是 Doug 应 该 关注 的 最 佳人 选 ， 当 然 ， 也 可 以 推荐 Michael 和 Bridget。 





5.6 ”小结 
对 于 在 网 络 中 识别 有 影响 力 的 节点 ， 


中 心性 算法 是 强大 的 工具 。 本 章 介绍 了 上 典型 的 中 心性 


算法 : 度 中 心性 算法 、 接 近 中 心性 算法 、 中 间 中 心性 算法 和 PageRank 算法 ， 还 讨论 了 用 

















于 处 


Dem 








蛙 长 时 间 运 行 和 隔离 分 量 等 问题 的 几 种 算法 变 体 以 及 替代 选项 。 


中 心性 算法 用 途 广泛 ， 推 荐 将 其 应 用 于 各 类 分 析 。 你 可 以 应 用 所 学 知识 来 定位 传播 信息 的 
最 佳 接触 点 ， 找 到 控制 资源 流动 的 隐藏 中 间 点 ， 并 且 发 现 后 在 幕后 的 势力 。 


接 下 来 介绍 用 于 研究 群 组 和 分 割 的 社 





团 发 现 算法 。 
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第 6 章 


社团 发现 算法 





社团 的 形成 在 所 有 类 型 的 网 络 中 都 很 常见 ， 识 别 社团 对 于 评价 群体 行为 和 突 发 现象 不 可 或 
缺 。 发 现 社 团 的 一 般 性 原则 是 ， 社 团 成 员 在 群 组 内 部 的 关系 要 多 于 其 与 群 组 外 部 市 点 的 关 
系 。 识 别 这 些 有 关联 关系 的 集合 揭示 了 市 点 徐 、 抓 立 群 组 和 网 络 结构 。 这 些 信息 有 助 于 推 
断 同类 群 组 的 相似 行为 或 偏好 ， 评 估 弹 性 ， 查 找 艾 套 关 系 ， 并 为 其 他 分 析 准 备 数据 。 社 团 
发 现 算法 也 常用 于 实现 面向 常规 检测 的 网 络 可 视 化 。 


























本 章 将 详细 介绍 几 种 最 具 代 表 性 的 社团 发 现 算 法 。 


面向 整体 关系 稠密 度 的 三 角形 计数 和 聚 类 系数 。 

。 用 于 发 现 连通 徐 的 强 连通 分 量 算法 和 连通 分 量 算法 。 

。 标签 传播 算法 ， 可 基于 节点 标签 快速 推断 群 组 。 

。 Louvain 模块 度 算 法 ， 用 于 研究 分 组 的 质量 和 层级 结构 。 












































本 章 将 解释 这 些 算法 的 工作 原理 ， 并 给 出 相应 的 Spark 示例 和 Neo4j 示例 。 当 算法 仅 适用 
于 一 种 平台 时 ， 仅 提供 一 个 示例 。 本 章 还 会 用 到 加 权 关 系 ， 这 是 因为 权重 通常 用 于 表示 不 
同 关系 的 重要 程度 。 


图 6-1 展示 了 各 种 社团 发 现 算法 之 间 的 差异 ， 表 6-1 是 每 种 算法 及 其 示范 用 例 的 速 查 表 。 
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度量 算法 分 量 算法 


三 角形 计数 -而 @ 







































































经 过 其 一 节点 的 三 角形 数 OO 分 

量 。 经 过 节点 A 的 三 角形 一 不 考虑 方向 ， 集 合 中 的 所 

有 两 个 有 节点 才能 到 达 集合 中 内 
他 节点 

聚 类 系数 图 中 出 虚线 圈 出 的 两 个 集 

某 节点 的 邻 节点 相互 韦 接 合 : {A, B,C,D, Ej} 和 人 ,6 

的 可 能 性 | 

A 的 聚 类 系数 为 0.2， 也 就 ， 强 连通 分 量 算法 

是 说 ， 任 意 两 个 连接 到 人 集合 中 的 所 有 节点 都 可 以 

的 节点 都 20% 的 屋 率 相 双向 到 达 其 他 各 节点 ， 但 

万 连接 ot 不 必 直 接 到 达 ， 如 图 中 了 

这 些 指标 可 以 全 局 计数 或 影 部 分 

归 一 化 

标签 传播 算法 





为 查找 徐 而 将 标签 扩散 给 邻 节 点 或 接收 来 自 邻 节点 的 标签 
一 一 一 一 一 一 
要 执行 多 次 氨 代 
通常 用 关系 或 节点 的 权重 来 判断 标签 在 群 组 中 的 “声望 ” 








Louvain 模 块 度 算 法 
将 节点 移入 更 高 一 层 关系 稠密 的 群 组 ， 从 而 合并 形成 超级 社团 ， 以 此 查找 徐 



































要 进行 多 次 进 代 




















使 用 关系 权重 及 其 总 和 来 确定 分 组 方式 




















图 6-1: 有 代表 性 的 社团 发 现 算法 


前 文 交替 使 用 了 集合 (set) 、 分 割 (partition)、 答 (cluster)、 群 组 (group) 
和 社团 (community) 等 术语 。 这 些 术 语 表 明 ， 可 以 用 不 同 的 方法 对 相似 节 
点 进行 分 组 。 社 团 发 现 算法 也 称 聚 类 算法 和 分 割 算 法 。 本 书 针对 特定 算法 一 
般 使 用 文献 中 最 常用 的 术语 。 
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表 6-1: 社团 发 现 算法 总 览 


算法 类 型 作 用 示范 用 例 Spark ”Neo4j 


























三 角形 计数 和 聚 类 度量 有 多 少 节 点 形成 了 三 角形 ， 估 计 群 组 稳定 性 以 及 网 络 是 否 可 有 有 
系数 以 及 节点 的 聚 类 程度 能 呈现 “小 世界 ”特征 ， 在 图 中 
出 现 紧 密 关 联 的 簇 
强 连通 分 量 算法 查找 每 个 节点 都 可 以 按照 关系 方 基于 群 组 的 从 属 关系 或 相似 项 进 有 有 

向 到 达 同 群 组 其 他 各 市 点 的 群 组 行 产品 推荐 


连通 分 量 算法 查找 每 个 节点 都 可 以 到 达 同 群 组 为 其 他 算法 实现 快速 分 组 ,识别 有 有 
其 他 各 市 点 的 群 组 ， 而 不 考虑 关 孤岛 
系 的 方向 

标签 传播 算法 基于 相 邻 多 数 节点 扩散 标签 ， 借 理解 社团 的 共识 或 者 发 现 一 起 开 有 有 

此 推断 出 簇 的 药物 中 可 能 存在 的 危险 组 合 

Louvain 模块 度 算法 通过 将 关系 权重 和 稠密 度 与 某 个 在 诈骗 分 析 中 ， 评 估 一 个 群体 是 无 有 

确定 的 估计 值 或 平均 值 做 比较 ， 只 有 零星 的 几 次 不 良 行为 还 是 有 

最 大 化 分 组 操作 的 预 设 精度 团伙 诈骗 行为 
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首先 介绍 示例 数据 并 演示 如 何 将 数据 导入 Spark 和 Neo4j ， 然 后 按 表 6-1 中 的 顺序 依次 介绍 
这 些 算 法 : 概述 之 后 给 出 关于 其 使 用 场景 的 建议 ， 还 有 何 时 使 用 相关 算法 的 指南 。 理 论 先 
行 ， 而 后 用 样本 数据 演示 示例 代码 。 









































在 使 用 社团 发 现 算法 时 ， 要 注意 关系 的 稠密 度 。 

如 果 图 非常 稠密 ， 那 么 很 可 能 会 导致 所 有 节点 聚集 在 一 个 或 几 个 徐 中 。 可 以 
通过 度 、 关 系 权重 或 相似 度 等 指标 来 消除 这 种 影响 。 

相反 ， 如 果 图 过 于 稀疏 ， 连 接 的 节点 太 少 ， 则 可 能 会 导致 每 个 节点 各 自 成 
禾 。 在 这 种 情况 下 ， 应 尝试 合并 带 有 更 多 相关 性 信息 的 附加 关系 类 型 。 


6.1 示例 数据 : 软件 依赖 图 


依赖 图 特别 适合 揭示 社团 发 现 算法 之 间 的 细微 差异 ， 这 是 因为 它们 往往 更 具 关 联 性 和 层次 
性 。 依 赖 图 可 用 于 软件 、 电 网 等 多 种 领域 ， 本 章 示例 运行 所 针对 的 图 包含 Python 库 之 间 的 
依赖 关系 ， 见 表 6-2 和 表 6-3。 开 发 人 员 使 用 这 种 软件 依赖 图 来 追踪 软件 项 目 中 的 传递 依 
赖 和 冲突 。 本 书 配套 文件 包含 相应 节点 和 文件 。 















































表 6-2: sw-nodes.csv 
id 


six 





pandas 


numpy 








id 





python-dateutil 
pytz 
pyspark 
matpLotLib 
Spacy 

py4j 
jupyter 
jpy-console 
nbconvert 
ipykernel 
jpy-client 


jpy-core 


表 6-3: sw-relationships.csv 





Sre dst relationship 
pandas numpy DEPENDS_ON 
pandas pytz DEPENDS_ON 
pandas python-dateutil DEPENDS_ON 
python-dateutil six DEPENDS_ON 
pyspark py4j DEPENDS_ON 
matpLotLib numpy DEPENDS_ON 
matpLotLib python-dateutil DEPENDS_ON 
matplotlib six DEPENDS_ON 
matplotlib pytz DEPENDS_ON 
spacy Six DEPENDS_ON 
spacy numpy DEPENDS_ON 
jupyter nbconvert DEPENDS_ON 
jupyter ipykernel DEPENDS_ON 
jupyter jpy-console DEPENDS_ON 
jpy-console jpy-client DEPENDS_ON 
jpy-console ipykernel DEPENDS_ON 
jpy-client jpy-core DEPENDS_ON 
nbconvert jpy-core DEPENDS_ON 





图 6-2 展示 了 我 们 要 构造 的 图 ， 该 图 中 有 3 个 关于 库 的 徐 。 可 以 将 小 规模 数据 集 可 视 化 ， 


作为 辅助 工具 验证 











由 社团 发 现 算 法 推导 出 来 的 徐 。 
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DEPENDS.ON 


全 
o 
@ PEPENDS ON 
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% 
他 





DEPENDS_ON 


DEPENDS ON 











图 6-2: 示例 图 模型 
下 面 基于 示例 CSV 文件 在 Spark 和 Neo4j 中 创建 图 。 


6.1.1 将 数据 导入 Spark 
首先 从 Spark 和 GraphFrames 包 中 导入 所 需 的 包 : 
from graphframes import * 
下 面 的 函数 从 示例 CSV 文件 中 创建 一 个 GraphFrame 对 象 : 
def create_software_graph(): 
nodes = spark.read.csv("data/sw-nodes.csv", header=True) 
relationships = spark.read.csv("data/sw-relationships.csv", header=True) 
return GraphFrame(nodes, relationships) 


然后 调用 该 函数 。 


g = create_software_graph() 





6.1.2 ”将 数据 导入 Neo4j 
接 下 来 对 Neo4j 执行 相同 的 操作 。 下 面 的 查询 导入 各 节点 : 


WITH "https://github.com/neo4j-graph-analytics/book/raw/master/data/" AS base 
WITH base + "sw-nodes.csv" AS uri 

LOAD CSV WITH HEADERS FROM uri AS row 

MERGE (:Library {id: row.id}) 


下 面 的 代码 导入 关系 。 


WITH "https://github.com/neo4j-graph-analytics/book/raw/master/data/" AS base 
WITH base + "sw-relationships.csv" AS uri 

LOAD CSV WITH HEADERS FROM uri AS row 

MATCH (source:Library {id: row.src}) 

MATCH (destination:Library {id: row.dst}) 

MERGE (source)-[:DEPENDS_ON]->(destination) 





现在 图 已 加 载 完毕 ， 下 面 开始 算法 层面 的 工作 。 


= pA 站 发 站 
由 于 三 角形 计数 和 聚 类 系数 经 常 同时 使 用 ， 因 此 一 并 介绍 。 三 角形 计数 算法 确定 了 图 中 经 
过 每 个 节点 的 三 角形 数量 。 三 角形 是 由 三 个 节点 组 成 的 集合 ， 且 每 个 节点 与 其 他 各 节点 都 
有 关系 。 三 角形 计数 算法 也 可 以 全 局 运行 ， 用 于 评估 整个 数据 集 。 



































三 角形 数量 多 的 网 络 更 有 可 能 呈现 出 小 世界 结构 。 








聚 类 系数 的 目标 是 比较 群 组 的 聚合 紧密 程度 与 其 能 够 达到 的 聚合 紧密 程度 。 该 算法 在 计算 
过 程 中 用 到 了 三 角形 计数 算法 ， 它 提供 现 有 三 角形 数 与 可 能 关系 数 的 比值 。 最 大 值 1 表示 
团 的 每 个 市 点 都 可 以 连接 到 该 团 的 其 他 市 点 。 




















聚 类 系数 有 两 类 : 局 部 聚 类 系数 和 全 局 聚 类 系数 。 


6.2.1 局 部 聚 类 系数 

一 个 节点 的 局 部 聚 类 系数 体现 的 是 其 邻 节点 也 相互 连通 的 可 能 性 。 该 数值 的 计算 过 程 要 用 
到 三 角形 计数 算法 。 

节点 聚 类 系数 的 计算 方法 如 下 : 将 通过 该 节点 的 三 角形 数 乘 2， 该 群 组 的 最 大 关系 数 减 1 
后 与 最 大 关系 数 相 乘 ， 然 后 用 前 一 个 积 除 以 后 一 个 积 。 图 6-3 给 出 的 各 例 中 都 有 一 个 节点 
有 5 个 关系 ， 但 是 三 角形 数 和 聚 类 系数 不 同 。 
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0 Cc) = CC() = 
5(5-D) 5(5-D) 5G-1 5(5-D) 























图 6-3: 节点 U 的 三 角形 计数 和 聚 类 系数 


注意 ， 图 6-3 中 的 节点 U 具 有 5 个 关系 ， 这 使 得 聚 类 系数 总 是 等 于 三 角形 数量 的 10%。 当 
改变 关系 数量 时 ， 情 况 就 不 同 了 。 如 果 将 图 6-3 中 的 第 2 个 例子 改 为 节点 U 只 有 4 个 关系 
(同样 有 两 个 三 角形 ) ， 那 么 系数 为 0.33。 


求 取 市 点 的 聚 类 系数 可 采用 如 下 公式 : 








2R 


汪 





中 : 





2 为 节点 
。 RR, 是 通过 邻 节 点 的 关系 数 (可 借助 经 过 2 的 三 角形 数 得 到 ) ， 
。 为 u 的 度 。 


6.2.2 全 局 聚 类 系数 


全 局 聚 类 系数 是 局 部 聚 类 系数 的 归 一 化 和 。 


聚 类 系数 为 查找 像 团 这 样 明显 的 群 组 提供 了 一 种 有 效 方法 。 在 团 中 ， 每 个 节点 都 与 其 他 各 
节点 有 关系 ， 不 过 也 可 以 指定 闵 值 来 设置 级 别 (例如 节点 40% 连通 ) 。 


6.2.3” 何 时 使 用 三 角形 计数 和 聚 类 系数 
当 需 要 判断 群 组 的 稳定 性 时 ， 可 使 用 三 角形 计数 算法 ， 也 可 在 计算 其 他 网 络 指标 (如 聚 类 
系数 ) 时 使 用 。 三 角形 计数 算法 在 社交 网 络 分 析 中 很 流行 ， 主 要 用 于 发 现 社团 。 


























聚 类 系数 可 以 反映 随机 选 定 节点 的 连通 概率 。 还 可 以 用 聚 类 系数 来 快速 评 佑 特定 群 组 或 整 
个 网 络 的 内 聚 力 。 将 这 两 种 算法 结合 使 用 可 估计 弹性 和 探查 网 络 结构 。 





示范 用 例如 下 。 


。 在 识别 垃圾 网 站 内 容 时 找 出 特征 。Luca Becchetti 等 人 的 论文 “Efficient Semi-Streaming 
Algorithms for Local Triangle Counting in Massive Graphs” 对 此 有 介绍 。 

。 研究 Facebook 社交 图 的 社团 结构 ， 比 如 一 些 研究 人 员 在 一 张 看 起 来 稀 玻 的 全 球 社交 
中 发 现 了 稠密 的 用 户 友 邻 关系 。 

。 探测 Web 的 主题 结构 ， 并 且 基 于 网 页 间 的 相互 链接 来 发 现 网 页 社团 的 共同 主题 。 更 
多 相关 信息 ， 参 见 Jean-Pierre Eckmann 和 Elisha Moses 的 文章 “Curvature of Co-Links 
Uncovers Hidden Thematic Layers in the World Wide Web”。 








加 











6.2.4 使 用 Spark 实 现 三 角形 计数 算法 
准备 运行 三 角形 计数 算法 ， 实 现代 码 如 下 : 





result = g.triangleCount() 
(result.sort("count", ascending=False) 
.filter('count > 0') 
.Show()) 


在 PySpark 中 运行 这 段 代码 ， 输 出 结果 如 下 所 示 : 


count id 





jupyter 
python-dateutil 
Six 

ipykernel 
matplotlib 


FF FRR FF 


jpy-console 

















结果 表明 一 个 节点 的 两 个 邻 节 点 也 相 邻 。6 个 库 都 位 于 这 样 的 三 角形 中 。 
如 果 还 想 知道 这 些 三 角形 中 都 有 哪些 市 点 ， 就 要 涉及 三 角形 流 了， 这 需要 使 用 Neo4j 来 





6.2.5 ”使 用 Neo4j 实 现 三 角形 计数 算法 
使 用 Spark 无 法 获取 三 角形 流 ， 而 使 用 Neo4j 可 以 返回 三 角形 流 : 





CALL algo.triangle.stream("Library","DEPENDS_ON") 

YIELD nodeA, nodeB, nodeC 

RETURN algo.getNodeById(nodeA).id AS nodeA, 
algo.getNodeById(nodeB).id AS nodeB, 
algo.getNodeById(nodeC).id AS nodeC 
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运行 这 段 程序 ， 结 果 如 下 所 示 : 





nodeA nodeB nodeC 
matplotlib six python-dateutil 
jupyter jpy-console ipykernel 





可 以 看 到 和 之 前 一 样 的 6 个 库 ， 但 现在 知道 它们 是 如 何 连 接 的 了 。matplotlib、six 和 python- 
dateutil 构成 一 个 三 角形 ，jupyter、jpy-console 和 ipykernel 构成 了 另 一 个 三 角形 。 图 6-4 展 


示 了 这 些 三 角形 。 
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6-4: 软件 依赖 图 中 的 三 角形 


6.2.6 ”使 用 Neo4j 计 算 局 部 聚 类 系数 
还 可 以 计算 局 部 聚 类 系数 。 以 下 查询 将 针对 每 个 节点 计算 局 部 聚 类 系数 : 


CALL algo.triangleCount.stream('Library', 'DEPENDS_ON') 
YIELD nodelId, triangles, coefficient 


WHERE coefficient > 0 
RETURN algo.getNodeById(nodelId).id AS library, coefficient 


ORDER BY coefficient DESC 








运行 该 程序 ， 结 果 如 下 所 示 : 





library coefficient 
ipykernel 1.0 

jupyter 0.3333333333333333 
jpy-console 0.3333333333333333 
six 0.3333333333333333 
python-dateutil 0.3333333333333333 
matplotlib 0.16666666666666666 


ipykernel 的 得 分 为 1.90， 这 意味 着 它 的 所 有 和 邻 节点 都 彼此 相 邻 。 图 6-4 清楚 地 展现 了 这 一 
点 。 这 表明 ， 直 接 围绕 ipykernel 形成 的 社团 非常 有 内 聚 力 。 


该 代码 示例 过 滤 了 系数 为 0 的 节点 ， 但 是 系数 较 小 的 节点 可 能 也 会 有 用 。 得 分 低 可 能 标志 
着 市 点 为 结构 洞 ， 即 与 多 个 社团 中 的 节点 i 都 有 良好 连接 的 节点 。 这 
也 是 第 5 章 讨论 的 寻找 潜在 桥 的 方法 。 


6.3” 强 连通 分 量 算法 

强 连 通 分 量 算法 (strongly connected components algorithm，SCC algorithm) 是 最 早 的 图 算 
法 之 一 。SCC 在 一 个 有 向 图 中 查找 连通 的 节点 集 ， 甚 中 每 个 节点 都 与 同一 集合 中 其 他 任何 
节点 双向 可 达 。 该 算法 运行 时 ， 操 作 规模 与 节点 数 成 正比 。 图 6-5 显示 ，SCC 群 组 中 的 节 
点 并 不 需要 直接 相 邻 ， 但 是 在 集合 中 的 所 有 节点 之 间 必 须 存 在 有 向 路 径 。 


@- 
电 强 连通 分 量 算法 


集合 中 的 所 有 节点 都 可 以 双向 到 达 其 
他 节点 ， 但 不 必 直 接 到 达 




















图 中 的 两 个 强 连通 分 量 以 阴影 表示 : 
{A,B} 和 {C,D,B} 


注意 ， 在 {C, D, BE} 中， 每 个 节点 都 可 
以 到 达 其 他 节点 ， 但 在 有 些 情况 下 要 
先 经 过 男 一 个 节 ) 节点 























图 6-5: 强 连 通 分 量 算法 
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将 有 向 图 分 解 为 它 的 强 连通 分 量 是 深度 优先 搜索 算法 的 经 典 应 用 之 一 。 
Neo4j 在 实现 强 连通 分 量 算法 时 在 底层 要 用 到 深度 优先 搜索 算法 。 


























6.3.1 何 时 使 用 强 连通 分 量 算 法 

强 连通 分 量 算法 用 于 在 图 分 析 的 早期 步骤 中 了 解 图 的 构造 ， 或 者 用 于 识别 可 能 需要 单独 研 
究 的 紧密 关联 簇 。 对 于 像 推 荐 引擎 这 样 的 应 用 ， 强 连通 分 量 算法 可 用 于 分 析 群 组 的 相似 行 
为 或 趋势 。 


许多 像 强 连通 分 量 算法 这 样 的 社团 发 现 算法 用 于 发 现 徐 ， 或 者 将 禾 分 解 成 单个 节点 以 进行 
禾 间 的 分 析 。 也 可 以 使 用 强 连通 分 量 算法 来 可 视 化 环 ， 以 进行 如 查找 死 锁 进程 这 样 的 分 
析 ， 出 现 死 锁 是 因为 每 个 子 进 程 都 在 等 待 其 他 子 进 程 的 动作 。 


示范 用 例如 下 。 


。 找 出 每 个 成 员 直 接 或 间接 拥有 其 他 成 员 股份 的 公司 集合 。 
在 多 跳 无 线 网 络 中 测量 路 由 性 能 时 ， 计 算 不 同 网 络 配置 的 连通 性 。 可 以 阅读 Mahesh 
K. Marina 和 Samir R. Das 的 论文 “Routing Performance in the Presence of Unidirectional 
Links in Multihop Wireless Networks”， 了 解 更 多 内 容 。 
在 许多 仅 对 强 连通 图 有 效 的 图 算法 中 充当 第 一 步 。 在 社交 网 络 中 ， 我 们 发 现 了 许多 强 连 
通 的 群 组 ， 这 些 群 组 中 的 人 通常 都 有 相似 的 偏好 ， 使 用 强 连通 分 量 算 法 可 以 查找 此 类 群 
组 ， 并 向 群 组 中 的 人 推荐 其 可 能 喜欢 的 网 页 或 想 购 买 的 产品 。 



































尽管 有 些 算法 采用 了 可 避免 无 限 循 环 的 策略 ， 但 是 在 自己 编写 算法 或 寻找 无 
法 终止 的 进程 时 ， 也 可 以 使 用 强 连通 分 量 算 法 来 检查 环 。 














6.3.2 ”使 用 Spark 实 现 强 连通 分 量 算法 
启动 Spark， 首 先 从 Spark 和 GraphFrames 包 中 导入 所 需 的 包 : 


from graphframes import * 
from pyspark.sql import functions as F 


然后 准备 运行 强 连通 分 量 算法 ， 用 它 来 判断 图 中 是 否 存在 人 循环 依赖 关系 。 




















如 果 两 个 节点 之 间 存在 双向 路 径 ， 那 么 它们 只 能 出 现在 同一 强 连通 分 量 中 。 























编写 如 下 代码 来 运行 算法 : 


result = g.stronglyConnectedComponents(maxIter=10) 
(result.sort("component") 
.groupby("component") 
.agg(F.collect list("id").alias("libraries")) 
.Show(truncate=False)) 


在 PySpark 中 运行 这 段 代码 ， 输 出 结果 如 下 所 示 : 





Component libraries 
180388626432 [jpy-corel] 
223338299392 [spacy] 
498216206336 [numpy] 
523986010112 [six] 
549755813888 [pandas] 
558345748480 [nbconvert] 
661424963584 [ipykernel] 
721554505728 [jupyter] 
764504178688 [jpy-client] 
833223655424 [pytz] 
910533066752 [python-dateutil] 
936302870528 [pyspark] 
944892805120 [matplotlib] 
1099511627776 [jpy-consolel] 
1279900254208 [py4j 








每 个 库 〈 节 点 ) 都 被 分 配 到 唯一 的 分 量 中 了 。 这 是 它 所 属 的 分 割 或 子 群 组 ， 正 如 我 们 预料 
的 那样 ， 每 个 节点 都 在 自己 的 分 割 中 。 这 意味 着 该 软件 项 目的 这 些 库 之 间 不 存在 循环 依赖 
关系 。 























6.3.3 ”使 用 Neo4j 实 现 强 连通 分 量 算法 
使 用 Neo4j 运行 强 连 通 分 量 算法 ， 执 行 以 下 查询 即 可 : 
CALL algo.scc.stream("Library", "DEPENDS_ON") 
YIELD nodelId, partition 


RETURN partition, collect(algo.getNodeById(nodeId)) AS libraries 
ORDER BY size(libraries) DESC 


算法 传递 的 参数 如 下 。 











Fen 
T 
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口 Library 
从 图 加 载 的 节点 标签 。 











口 DEPENDS_ON 
从 图 加 载 的 关系 类 型 。 


该 查询 的 返回 结果 如 下 所 示 : 

















partition libraries 

8 [ipykerneL] 
11 [six] 

2 [matplotlib] 
5 [jupyter] 

14 [python-dateutil] 
13 [numpy] 

4 [Lpy4j] 

7 [nbconvert] 

1 [pyspark] 

10 [jpy-core] 

9 [jpy-client] 
3 [spacy] 

12 [pandas] 

6 [jpy-console] 
0 [pytz] 





与 Spark 示例 一 样 ， 每 个 节点 都 在 自己 的 分 割 中 。 


到 目前 为 止 ， 该 算法 表明 各 个 Python 库 都 表现 良好 。 不 过 ， 可 以 在 图 中 创建 一 个 循环 依赖 
项 ， 让 研究 过 程 变 得 更 有 趣 。 这 意味 着 最 终 在 同一 个 分 割 中 会 有 多 个 市 点 。 


























下 面 的 查询 添加 了 一 个 名 为 extra 的 库 ， 它 在 py4j 和 pyspark 之 间 创 建 了 循环 依赖 关系 : 





MATCH (py4j:Library {id: "py4j"}) 
MATCH (pyspark:Library {id: "pyspark"}) 
MERGE (extra:Library {id: "extra"}) 
MERGE (py4j)-[:DEPENDS_ON]->(extra) 
MERGE (extra)-[:DEPENDS_ON]->(pyspark) 





6-6 清晰 地 展示 了 创建 的 循环 依赖 关系 。 




















图 6-6: pyspark、py4j 和 extra 之 间 的 循环 依赖 关系 
再 次 运行 强 连 通 分 量 算法 ， 结 果 稍 有 不 同 ， 如 下 所 示 ; 





partition Libraries 

1 [pyspark, py4j, extral] 
8 [ipykernel] 

11 [six] 

2 [matplotlib] 

5 [jupyter] 

14 [numpy] 

13 [pandas] 

7 [nbconvert] 

10 [jpy-corel] 

9 [jpy-client] 

3 [spacy] 

15 [python-dateutil] 
6 [jpy-consolel] 

0 [pytz] 


pyspark、py4j 和 extra 都 属于 同一 分 割 ， 强 连通 分 量 算法 帮 有 我 们 找到 了 循环 依赖 项 ! 
在 介绍 下 一 个 算法 之 前 ， 先 删除 图 中 的 extra 库 及 其 关系 。 


MATCH (extra:Library {id: "extra"}) 
DETACH DELETE extra 
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和 JE ~ 
6.4 连通 分 量 算法 
连通 分 量 算法 (connected components algorithm， 也 称 联盟 查找 算法 或 弱 连 通 分 量 算 法 ) 可 
在 无 向 图 中 发 现 连通 节点 集合 。 与 强 连 通 分 量 算法 不 同 ， 该 算法 只 需要 节点 对 之 间 存 在 单 
向 路 符 ， 而 强 连通 分 量 算法 需要 布点 对 之 间 存 在 双向 路 符 。Bernard A. Galler 和 Michael J. 
Fisher 在 1964 年 发 表 的 论文 “An Improved Equivalence Algorithm ”中 首次 前 述 了 这 种 算法 。 


6.4.1 何 时 使 用 连通 分 量 算法 

与 强 连 通 分 量 算法 一 样 ， 连 通 分 量 算法 通常 在 分 析 的 早期 使 用 ， 用 于 理解 图 的 结构 。 因 为 
该 算法 的 伸缩 性 强 ， 所 以 可 用 于 需要 频繁 更 新 的 图 。 该 算法 可 以 快速 显示 群 组 间 共 同 的 新 
节点 ， 这 对 如 欺诈 检 测 这 样 的 分 析 来 说 非常 有 用 。 

应 该 养 成 习惯 ， 将 运行 连通 分 量 算法 作为 常规 图 分 析 的 准备 步 又 ,测试 图 是 否 连 通 。 执 行 
这 一 快速 测试 可 以 避免 意外 地 在 图 的 某 个 非 连 通 分 量 上 运行 算法 ， 导 臻 结果 出 错 。 































































































示范 用 例如 下 。 


。 追踪 数据 库 记 录 徐 ， 作 为 数据 去 重 过程 的 一 部 分 。 去 重 是 主 数据 管理 应 用 中 的 一 项 重 
要 任务 ， 详 见 Alvaro Monge 和 Charles Elkan 的 论文 “An Efficient Domain-Independent 
Algorithm for Detecting Approximately Duplicate Database Records” 。 

。 分 析 引 文 网 络 。 这 项 研究 使 用 连通 分 量 算法 来 了 解 网 络 连 通 情 况 ， 然 后 看 看 如 果 从 图 
中 移 走 “中 心 ”节点 或 “权威 ”节点 ， 能 否 保持 连通 性 。Yuan An、Jeannette Janssen 和 
Evangelos E. Milios 在 论文 “Characterizing and Mining the Citation Graph of the Computer 
Science Literature” 中 进一步 阐述 了 该 用 例 。 




















6.4.2 ”使 用 Spark 实 现 连 通 分 量 算 法 
首先 启动 Spark， 首 先 从 Spark 和 GraphFrames 包 中 导入 所 需 的 包 : 


from pyspark.sql import functions as F 








如 果 两 个 节点 之 间 存 在 双向 路 径 ， 则 它们 位 于 同一 连通 分 量 中 。 











然后 运行 连通 分 量 算法 ， 代 码 如 下 : 





result = g.connectedComponents() 
(result.sort("component") 
.groupby("component") 
.agg(F.collect list("id").alias("libraries")) 
.Show(truncate=False)) 





在 PySpark 中 运行 以 上 代码 ， 输 出 结果 如 下 所 示 : 





component libraries 

180388626432 [jpy-core, nbconvert, ipykernel, jupyter, jpy-client, jpy-console] 
223338299392 [spacy, numpy, six, pandas, pytz, python-dateutil, matplotlib] 
936302870528 [pyspark, py4j] 


结果 显示 有 3 个 节点 复 ， 如 图 6-7 所 示 。 本 例 中 仅 有 3 个 分 量 , 一目 了 然 。 对 于 大 型 图 来 
说 ， 这 种 算法 更 有 价值 ， 因 为 要 么 肉眼 难以 识别 ， 要 么 非常 耗 时 。 
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图 6-7: 通过 连通 分 量 算法 发 现 的 簇 


6.4.3 ”使 用 Neo4j 实 现 连通 分 量 算法 

要 使 用 Neo4j 运行 连通 分 量 算法 ， 请 执行 以 下 查询 。 
CALL algo.unionFind.stream("Library", "DEPENDS_ON") 
YIELD nodeId,setId 


RETURN setId, collect(algo.getNodeById(nodeId)) AS libraries 
ORDER BY size(libraries) DESC 
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传递 给 该 算法 的 参数 如 下 。 


口 Library 
从 图 加 载 的 节点 标签 。 











口 DEPENDS_ON 
从 图 加 载 的 关系 类 型 。 


























输出 结果 如 下 所 示 : 





setId libraries 

2 [pytz, matplotlib, spacy, six, pandas, numpy, python-dateutil] 

5 [jupyter, jpy-console, nbconvert, ipykernel, jpy-client, jpy-corel] 
1 [pyspark, py4j] 


不 出 所 料 ， 结 果 与 Spark 实现 的 完全 相同 。 








前 面 介绍 的 两 种 社团 发 现 算法 都 属于 确定 性 算法 ， 即 每 次 运行 都 返回 相同 的 结果 。 接 下 来 
介绍 两 种 不 确定 性 算法 ， 多 次 运行 的 话 ， 即 使 数据 相同 ， 结 果 也 可 能 不 同 。 


6.5 标签 传播 算法 


标签 传播 算法 (label propagation algorithm，LPA) 是 在 图 中 查找 社团 的 一 种 快速 算法 。 在 
该 算法 中 ， 节 点 基于 直接 邻 节 点 选择 群 组 。 这 种 方法 非常 适用 于 分 组 不 那么 清晰 、 可 以 用 
权重 辅助 确定 节点 所 属 社团 的 网 络 。 标 签 传播 算法 也 很 适合 半 监 督学 习 ， 这 是 因为 可 以 使 
用 预先 分 配 的 指示 性 节点 标签 作为 种 子 。 


该 算法 的 思想 是 ， 一 个 标签 可 以 很 快 主导 连接 稠密 的 节点 群 组 ， 但 它 在 跨越 连接 稀疏 的 区 
域 时 会 遇 到 困难 。 当 算法 完成 时 ， 标 签 被 困 在 连接 稠密 的 节点 群 组 中 ， 最 终 具 有 相同 标签 
的 布点 可 视 为 在 同一 社团 中 。 该 算法 将 成 员 关 系 指派 给 邻 域内 关系 和 节点 组 合 权 重 最 高 的 
标签 ， 这 样 就 解决 了 重 又 问题 (节点 可 能 属于 多 个 徐 )。 标 签 传播 算法 是 2007 年 由 Usha 
Nandini Raghavan、Reka Albert 和 Soundar Kumara 在 论文 “Near Linear Time Algorithm to 
Detect Community Structures in Large-Scale Networks” 中 提出 的 一 种 相对 较 新 的 算法 。 




































































图 6-8 展示 了 标签 传播 算法 的 两 种 变 体 ， 即 较为 简单 的 推 方 法 和 更 为 典型 的 拉 方 法 (依赖 
关系 权重 )。 拉 方法 很 适合 并 行 化 处 理 。 











标签 传播 一 一 推 方法 








将 标签 推送 给 邻 节点 以 查找 禾 
了 | 本 
示例 中 的 两 个 节点 是 它们 寻找 紧邻 的 节点 
给 定 种 子 标签 彰 在 传播 自己 的 标 淮 
新 近 标记 的 节点 现在 基于 某 种 集合 度量 指标 
作为 新 种 子 激活 ( 价 如 关系 权重 ) 
来 化 解 冲 突 
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标签 的 传播 没有 冲突 


标签 传播 算法 的 运行 需要 种 工 标签 加 未 标记 节点 或 者 全 个 节点 最 初 都 有 叭 - 标 和 
唯一 标签 越 多 ， 采 用 的 冲突 化 解 办 法 也 越 多 


基于 关系 权重 从 邻 节 点 “ 拉 ” 标 签 以 查找 禾 









































图 6-8: 标签 传播 算法 的 两 种 变 体 
标签 传播 拉 方 法 的 常用 步骤 如 下 。 


1. 每 个 布点 都 用 唯一 标签 (一 个 标识 
2. 这 些 标签 通过 网 络 传播 。 

















千 ) 初始 化 ， 而 且 可 以 选用 初始 “种 子 ” 标 签 。 


3. 在 每 次 传播 迭代 中 ， 每 个 节点 都 会 更 新 其 标签 以 匹配 具有 最 大 权重 的 标签 ， 最 大 权重 是 
根据 邻 节 点 的 权重 及 其 关系 计算 的 。 联 系 是 均匀 而 随机 断 开 的 。 








4. 当 每 个 节点 都 拥有 大 多 数 邻 节 点 的 标签 时 ， 标 签 传播 算法 收 你 。 
随 着 标签 的 传播 ， 连 接 稠密 的 节点 群 组 很 快 会 就 基 个 唯一 


剩 下 几 个 标签 ， 而 具有 相同 标签 的 节点 属于 同一 社团 。 


标签 达成 一 致 。 在 传播 结束 时 





口 


AAA 
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6.5.1 半 监 督学 习 和 种 子 标签 


与 其 他 算法 不 同 ,标签 传播 算法 可 以 在 同一 图 上 多 次 运行 并 返回 不 同 的 社团 结构 。 市 点 的 
评估 顺序 对 最 终 返 回 的 社团 有 影响 。 


当 某 些 节 点 被 赋予 初始 标签 〈 种 子 标 签 )， 而 其 他 节点 没有 标记 时 ， 求 解 范围 会 变 窗 。 未 
标记 的 节点 更 可 能 采用 初始 标签 。 


可 将 使 用 标签 传播 算法 视 为 一 种 针对 社团 查找 的 半 监 督学 习 方法 。 半 监督 学 习 是 一 类 机 器 
学 习 任 务 和 技术 ， 针 对 少量 有 标记 的 数据 和 大 量 无 标记 的 数据 进行 运算 。 当 图 发 生 演变 
时 ， 还 可 以 在 图 上 重复 运行 算法 。 

此 外 ， 标 签 传播 算法 有 时 无 法 收敛 于 单个 解 。 在 这 种 情况 下 ， 社 团 发 现 的 结果 将 在 几 个 非 
常 相似 的 社团 之 间 持 续 摆 荡 ， 而 且 算 法 永远 无 法 完成 。 种 子 标签 有 助 于 引导 算法 得 出 解 。 
Spark 和 Neo4j 使 用 一 个 最 大 迭代 次 数 集合 来 避免 执行 过 程 无 休止 。 你 应 该 针对 自己 的 数 
据 来 测试 迭代 设置 ， 以 平衡 准确 率 和 执行 时 间 。 


6.5.2” 何 时 使 用 标签 传播 算法 

标签 传播 算法 通常 用 于 发 现 大 规模 网 络 中 的 初始 社团 ， 当 权重 可 用 时 尤其 适用 。 该 算法 可 

以 并 行 化 处 理 ， 因 此 在 分 割 图 时 速度 非常 快 。 

示范 用 例如 下 。 

。 将 推 文 的 “ 极 性 ”作为 语义 分 析 的 一 部 分 。 在 该 场景 中 ， 将 来 自分 类 器 的 “ 正 负 ”种 子 
标签 与 Twitter 关注 者 图 结合 使 用 。 


。 根据 化 学 相似 性 和 副作用 概况 ， 找 出 同 开 的 药物 中 是 否 存 在 潜在 危险 组 合 ， 参 见 Ping 
Zhang 等 人 的 论文 “Label Propagation Prediction of Drug-Drug Interactions Based on Clinical 


Side Effects” 。 
。 针对 机 器 学 习 模型 推断 对 话 特征 和 用 户 意图 。 


6.5.3 ”使 用 Spark 实 现 标签 传播 算法 


首先 启动 Spark， 从 Spark 和 GraphFrames 包 中 导入 所 需 的 包 : 

























































































from pyspark.sql import functions as F 


然后 准备 运行 标签 传播 算法 ， 代 码 如 下 所 示 : 





result = g.LabeLPropagation(maxIter=10) 
(result 

.sort("label") 

.groupby("label") 
.agg(F.collect_list("id")) 
.Show(truncate=False)) 





在 PySpark 中 运行 这 段 代码 ， 输 出 结果 如 下 所 示 : 





label collect_ list(id) 

180388626432 [jpy-core, jpy-console, jupyter] 
223338299392 [matplotlib, spacy] 

498216206336 [python-dateutil, numpy, six, pytz] 
549755813888 [pandas] 

558345748480 [nbconvert, ipykernel, jpy-client] 
936302870528 [pyspark] 

1279900254208 [py4j] 


与 连通 分 量 算法 相 比 ， 本 例 中 库 的 簇 更 多 。 在 如 何 判定 复方 面 ， 标 签 传播 算法 没有 连通 分 
量 算法 那么 严格 。 使 用 标签 传播 算法 ， 两 个 相 邻 (直接 连接 ) 的 节点 可 能 位 于 不 同 的 徐 
中 ， 然 而， 在 使 用 连通 分 量 算 法 时 ， 节 点 总 是 与 其 邻 节 点 位 于 同一 个 徐 中 ， 这 是 因为 该 算 
法 严格 基于 关系 进行 分 组 。 

















在 本 例 中 ， 最 明显 的 区 别 是 Jupyter 的 库 被 划 为 两 个 社团 ， 一 个 包含 其 核心 部 分 ， 另 一 个 
为 面向 客户 端的 工具 。 


,re 一 fc < 
6.5.4 使 用 Neo4j 实 现 标签 传播 算法 
下 面 使 用 Neo4j 来 尝试 同一 算法 。 执 行 以 下 查询 : 
CALL algo.labelPropagation.stream("Library", "DEPENDS_ON", 
{ iterations: 10 }) 
YIELD nodeId, label 
RETURN label, 


COLLect(aLgo.getNodeById(nodeId).id) AS libraries 
ORDER BY size(libraries) DESC 


传递 给 该 算法 的 参数 如 下 。 


DD Library 
从 图 加 载 的 节点 标签 。 


口 DEPENDS_ON 
从 图 加 载 的 关系 类 型 。 








口 iterations: 10 


运行 时 的 最 大 和 返 代 次 数 。 

















结果 如 下 所 示 : 
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label libraries 





11 [matplotlib, spacy, six, pandas, python-dateutil] 

10 [jupyter, jpy-console, nbconvert, jpy-client, jpy-corel] 
4 [pyspark, py4j] 

8 [ipykernel] 

13 [numpy] 

0 [pytz] 


图 6-9 将 上 述 结果 可 视 化 ， 可 以 看 到 ， 这 与 用 Spark 得 到 的 结果 相似 。 
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图 6-9; 通过 标签 传播 算法 查找 簇 


还 可 以 在 假设 图 无 向 的 情况 下 运行 该 算法 ， 这 意味 着 市 点 将 尝试 采用 它们 所 依赖 的 库 的 标 
签 和 依赖 它们 的 库 的 标签 。 


为 此 ， 将 算法 的 direction 参数 设置 为 BOTH: 





CALL algo.labelPropagation.stream("Library", "DEPENDS_ON", 
{ iterations: 10, direction: "BOTH" }) 
YIELD nodeId, label 
RETURN label, 
collect(algo.getNodeById(nodeId).id) AS libraries 
ORDER BY size(libraries) DESC 


运行 以 上 代码 ， 输 出 结果 如 下 所 示 : 





label libraries 





ra [pytz, matplotlib, spacy, six, pandas, numpy, python-dateutil] 
10 [nbconvert, jpy-client, jpy-corel] 

6 [jupyter, jpy-console, ipykernel] 

4 [pyspark, py4j] 








复 的 数量 从 6 减少 到 4， 现 在 图 中 matplotlib 部 分 的 所 有 节点 都 被 分 到 一 组 了 ， 如 图 6-10 
所 示 。 
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图 6-10: 当 忽 略 关 系 方向 时 ， 通 过 标签 传播 算法 发 现 艇 


























虽然 在 该 数据 之 上 运行 标签 传播 算法 时 ， 无 向 图 和 有 向 图 的 计算 结果 相似 ， 但 是 在 复杂 图 上 ， 
差异 会 更 显著 。 这 是 因为 忽略 方向 会 导致 天 点 尝试 采用 更 多 标签 ， 而 不 考虑 关系 的 来 源 。 


6.6 ” Louvain 模块 度 算法 


Louvain 模块 度 算法 在 将 节点 分 配 到 不 同 群 组 时 ， 通 过 比较 社团 密度 来 查找 徐 。 可 以 将 其 
视 为 一 种 假设 分 析 ， 演 试 多 种 分 组 方式 以 达到 全 局 最 优 。 
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Louvain 模块 度 算法 诞生 于 2008 年 ， 是 最 快 的 一 种 基于 模块 度 的 算法 。 除 发 现 社团 外 ， 它 
还 揭示 了 不 同 尺度 上 的 社团 层级 结构 ， 这 对 于 理解 不 同 粒度 的 网 络 结构 非常 有 用 。 

通过 将 得 内 连接 的 密度 与 平均 值 或 随机 样本 进行 比较 ，Louvain 模块 度 算法 可 以 量化 评估 
将 某 个 节点 分 配给 某 个 群 组 是 否 恰当 。 这 种 度量 社团 分 配 的 指标 称 为 模块 度 。 


6.6.1 通过 模块 度 进 行 基 于 质量 的 分 组 

模块 度 是 一 种 发 现 社 团 的 技术 ， 它 将 图 分 割 为 更 粗 粒 度 的 模块 (或 徐 ) ， 然 后 度量 本 次 分 
组 的 强度 。 与 仅仅 查看 徐 内 连接 的 集中 度 不 同 ， 该 方法 将 禾 内 关系 密度 与 符 间 关系 密度 进 
行 比较 。 模 块 度 是 度量 这 些 分 组 质量 的 指标 。 



































模块 度 算法 首先 实现 社团 的 局 部 优化 ， 然 后 再 实现 全 局 优化 ， 使 用 多 组 迭代 来 测试 不 同 分 
组 方法 并 且 增 加 粗 粒度 。 这 种 策略 可 以 识别 社团 的 层级 结构 ， 比 较 全 面 地 认识 整体 结构 。 
然而 ， 所 有 模块 度 算法 都 存在 以 下 两 个 缺点 : 


它们 将 较 小 的 社团 合并 成 较 大 的 社团 ; 
当 多 个 分 割 选项 出 现 相 似 的 模块 度 时 ， 可 能 会 出 现 停 庶 ， 形 成 局 部 极点 并 阻碍 进一步 
处 理 。 









































更 多 相关 信息 ， 请 参阅 Benjamin H. Good、Yves-Alexandre de Montjoye 和 Aaron Clauset 的 
论文 “Performance of Modularity Maximization in Practical Contexts”。 


Louvain 模块 度 算法 首先 对 所 有 市 点 的 模块 度 进 行 局 部 优化 ， 找 到 若干 小 社团 ， 然 后 将 每 
个 小 社团 分 组 到 更 大 的 联合 集团 ， 之 后 重复 第 一 步 ， 直 到 达到 全 局 最 优 为 止 。 














计算 模块 度 


一 种 简单 的 模块 度 计算 方法 是 用 给 定 群 组 内 关系 的 分 值 减 去 关系 在 所 有 节点 间 随 机 分 
布 的 预期 值 。 该 值 总 是 介 于 -1 ~ 1]， 正 值 表示 关系 密度 大 于 预期 值 ， 负 值 表 示 关 系 密 
度 小 于 预期 值 。 图 6-11 展示 了 基于 节点 分 组 的 几 个 模块 度 得 分 


群 组 的 模块 度 公式 如 下 : 





其 中 : 
是 整个 群 组 的 关 系 数 ; 

as 

友 是 分 定 中 节点 的 总 度数 。 











NY AY 





随机 基准 最 优 分 割 
( 单 社团 ) M=0.41 
M=0.0 
KT J 
次 优 分 割 负 模 块 度 
M= 0.22 M= -0.12 


6-11: 4 个 基于 不 同 分 割 选择 的 模块 度 得 分 
图 6-11 顶部 的 最 优 分 割 计算 过 程 如 下 : 


15 Y 
。 深 色 分 割 的 模块 度 为 3 和 -[ 罗 | jos， 


人 的 居民 | -[ 萝 ] -om 
13 \2d3) 


。 这 些 加 起 来 就 是 M=0.205 + 0.206 = 0.41 。 











该 算法 包含 两 个 要 重复 应 用 的 步 又， 如 图 6-12 所 示 。 
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步骤 0 步骤 1 步骤 2 
选择 一 个 起 始 节 点 (上 图 中 起 始 节点 连接 模块 度 变化 最 大 合并 社团 形成 超级 社团 ， 这 些 
为 X) 并 计算 模块 度 的 节点 。 对 每 个 节点 重复 上 述 超级 节点 间 关 系 的 权重 为 之 前 

过 程 ， 直 到 形成 上 述 社团 连接 的 权重 之 和 。 自 回路 表示 
之 前 的 关系 为 双向 ， 现 在 已 经 
隐藏 到 超级 节点 中 了 
第 2 轮 





条 下 


步骤 1 步骤 2 


在 多 轮 计算 中 重复 步骤 1 和 步骤 2， 直 到 模块 度 不 再 增加 或 者 达到 迁 代 次 数 为 止 

















图 6-12: Louvain 模块 度 算法 的 过 程 
Louvain 算法 的 步骤 如 下 。 


1. 将 刷 点 “ 贪 栖 ” 地 分 配给 社团 ， 侧 重 于 模块 度 的 局 部 优化 。 
2. 根据 第 1 步 中 找到 的 社团 定义 更 粗 粒度 的 网 络 ， 这 种 网 络 将 在 算法 的 下 一 次 返 代 中 使 用 。 


重复 这 两 个 步骤 ， 直 到 社团 的 模块 度 无 法 继续 增加 为 止 。 
对 第 1 步 的 优化 操作 之 一 是 评估 群 组 的 模块 度 。Louvain 模块 度 算法 用 以 下 公式 来 实现 。 





oa [4 -pee) 
2m 





解释 如 下 。 


。 u 和 vw 都 是 节点 。 
。 m 是 整个 图 的 关系 总 权重 (在 模块 度 公 式 中 ，2m 是 归 一 化 的 常用 取 值 )。 
。 4 -各 是 和 v 间 关系 强度 与 将 网 络 各 节点 随机 分 配 的 预期 值 ( 趋 于 平均 值 ) 的 比 
较 值 。” 
一 4, 是 u 和 vw 间 关 系 的 权重 。 
-是 的 关系 权重 和 。 
- 无 是 v 的 关系 权重 和 。 
。 如 果 w 和 v 被 分 配 到 同一 社团 中 ， 则 (ec, cy) 的 值 为 1， 如 果 未 在 同一 社团 中 ， 则 为 0。 














对 第 1 步 的 另 一 优化 操作 是 ， 当 把 节点 移动 到 另 一 个 群 组 时 ， 评 估 模 块 度 的 变化 情况 。 
Louvain 模块 度 算 法 使 用 了 该 公式 的 一 个 更 复杂 的 变 体 ， 然 后 确定 最 佳 群 组 分 配 情况 。 


6.6.2” 何 时 使 用 Louvain 模 块 度 算法 

Louvain 模块 度 算法 可 用 于 在 大 型 网 络 中 发 现 社团 。 因 为 计算 开销 大 ， 所 以 Louvain 模块 
度 算 法 并 没有 完全 采用 模块 度 ， 而 是 采用 了 一 个 启发 式 国 数 。 因 此 ，Louvain 模块 度 算法 
可 用 于 处 理 标 准 模 块 度 算法 难以 处 理 的 大 型 图 。 





Louvain 模块 度 算法 对 于 评估 复杂 网 络 的 结构 也 很 有 帮助 ， 尤 其 擅长 发 现 多 层级 结构 ， 比 
如 可 能 会 发 现 一 个 犯罪 组 织 的 层级 结构 。 该 算法 还 可 以 在 不 同 粒度 上 缩放 ， 在 子 社团 的 子 
社团 内 部 查找 子 社团 。 











示范 用 例如 下 。 


。 检测 网 络 攻击 。Sunanda Vivek Shanbhaq 在 2016 年 的 一 项 研究 中 使 用 了 Louvain 模块 度 
算法 ， 面 向 网 络 安全 应 用 探索 大 规模 网 络 的 快速 社团 检测 。 一 旦 发 现 这 些 社团 ， 就 可 以 
用 它们 来 检测 网 络 攻 击 。 

。 将 文档 中 共同 出 现 的 词汇 引入 主题 建 模 过 程 ， 并 基于 此 从 在 线 社交 平台 上 提取 主题 。 

。 发 现 大 脑 功能 网 络 中 的 层级 社团 结构 ， 参 见 David Meunier 等 人 的 论文 “Hierarchical 
Modularity in Human Brain Functional Networks” 。 






































包括 Louvain 模块 度 算 法 在 内 的 模块 度 优化 算法 都 存在 两 个 问题 。 首 先 ， 这 
些 算法 忽略 了 大 型 网 络 中 的 小 型 社团 。 可 以 通过 审查 中 间 合 并 步骤 来 解决 这 
个 问题 。 其 次 ， 在 具有 重合 社团 的 大 型 图 中 ， 模 块 度 优化 器 可 能 无 法 正确 判 
定 全 局 极 值 。 对 于 后 一 种 情况 ， 推 荐 使 用 任意 一 种 模块 度 算法 作为 指引 ， 以 
进行 估计 (不 完全 准确 )。 
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6.6.3 ”使 用 Neo4j 实 现 Louvain 模 块 度 算 法 
下 面 看 看 如 何 运行 Louvain 模块 度 算法 。 可 以 执行 以 下 查询 : 
CALL algo.louvain.stream("Library", "DEPENDS_ON") 


YIELD nodelId, communities 
RETURN aLgo.getNodeById(nodeId).id AS libraries, communities 


传递 给 该 算法 的 参数 如 下 。 


口 Library 
从 图 加 载 的 节点 标签 。 











口 DEPENDS_ON 
从 图 加 载 的 关系 类 型 。 

















结果 如 下 所 示 : 

libraries communities 
pytz [9, 9 
pyspark | 
matplotlib [2, 0 
spacy [2, 9 
py4j [L341 
jupyter L332 
jpy-console [3 又 
nbconvert [4，2 
ipykernel [3 这 
jpy-client EA 半 ;: 和 2 
jpy-core E44; 乏 
six [2, 0 
pandas [9, 9] 
numpy [2, 9 
python-dateutil [2, 0 





communities 列 描述 了 由 可 分 为 两 个 层级 的 节点 构成 的 社团 。 数 组 中 前 一 个 值 标记 中 间 社 
团 ， 后 一 个 值 标记 最 终 社团 。 




















分 配给 中 间 社 团 和 最 终 社团 的 数字 只 是 没有 度量 意义 的 标签 ， 可 理解 为 用 于 指示 方 点 所 属 
社团 的 标签 ， 如 “属于 标记 为 0 的 社团 ”“ 标 记 为 4 的 社团 ”等 。 























举例 来 说 ，matplotlib 的 结果 是 [2,6]， 这 意味 着 matplotlib 的 最 终 社团 被 标记 为 909， 而 它 的 
中 间 社 团 被 标记 为 2。 


如 果 先 使 用 算法 的 写 版 本 存储 这 些 社团 ， 再 进行 查询 ， 就 更 容易 看 出 该 算法 的 工作 流程 。 
下 述 查 询 将 运行 Louvain 模块 度 算法 ， 并 将 结果 存储 在 每 个 节点 的 communities 性 质 中 : 












































CALL algo.louvain("Library", "DEPENDS_ON") 
还 可 以 使 用 该 算法 的 流 版 本 来 存储 产生 的 社团 ， 之 后 调用 SET 子 句 来 存储 结果 。 利 用 下 面 
的 查询 可 实现 : 

CALL algo.louvain.stream("Library", "DEPENDS_ON") 

YIELD nodeId, communities 


WITH algo.getNodeById(nodeId) AS node, communities 
SET node.communities = communities 


在 执行 这 两 个 查询 后 ， 还 可 以 编写 以 下 查询 来 查找 最 终 禾 。 


MATCH (1L:Library) 
RETURN 1l.communities[-1] AS community, collect(l.id) AS libraries 
ORDER BY size(libraries) DESC 


L.communities[-1] 返回 了 该 性 质 存 储 于 底层 数组 中 的 最 后 一 项 。 


执行 该 查询 ， 结 果 如 下 所 示 : 


community libraries 
0 [pytz, matplotlib, spacy, six, pandas, numpy, python-dateutil] 
2 [jupyter, jpy-console, nbconvert, ipykernel, jpy-client, jpy-corel] 


上 


[pyspark, py4j] 





该 聚 类 结果 与 连通 分 量 算 法 的 结果 一 样 。 














matplotlib 位 于 包含 pytz、spacy、six、pandas、numpy 和 python-dateutil 的 社团 中 ， 如 图 6-13 
所 示 。 
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6-13: 由 Louvain 模块 度 算 法 发 现 的 艇 





Louvain 模块 度 算法 的 另 一 个 特点 是 可 以 看 到 中 间 聚 类 结果 ， 这 可 以 展示 比 最 终 层 粒度 更 
细 的 矮 : 
MATCH (1l:Library) 


RETURN l.communities[0] AS community, collect(l.id) AS libraries 
ORDER BY size(libraries) DESC 


执行 该 查询 ， 结 果 如 下 所 示 : 








Community Libraries 





[matplotlib, spacy, six, python-dateutil] 
[nbconvert, jpy-client, jpy-corel] 
[jupyter, jpy-console, ipykernel] 
[pyspark, py4j] 

[pytz, pandas] 


mm 上 mw 上 上 mm 


[numpy] 
matplotlib 所 在 社团 的 库 现 在 分 成 了 3 个 较 小 的 社团 : 


。 matplotlib、spacy、six 和 python-dateutil; 
。 pytz 和 pandas; 


。 numpy。 








图 6-14 直观 地 展现 了 这 一 细 分 结果 。 
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图 6-14: 通过 Louvain 模块 度 算法 查找 中 间 簇 
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虽然 该 图 显示 的 层级 结构 只 包含 两 层 ， 但 是 如 有 果 在 更 大 的 图 上 运行 该 算法 ， 就 会 看 到 更 复 
杂 的 层级 结构 。Louvain 模块 度 算 法 揭示 的 中 间 徐 对 于 发 现 细 粒 度 的 社团 非常 有 用 ， 而 其 
他 社团 发 现 算法 可 能 无 法 发 现 这 些 细 粒 度 的 社团 。 


6.7 ”验证 社团 


社团 发 现 算法 通常 具有 共同 的 目标 ， 即 识别 群 组 。 然 而 ， 由 于 不 同 的 算法 基于 不 同 的 假 
设 ， 因 此 它们 可 能 会 发 现 不 同 的 社团 。 这 使 得 为 特定 问题 选择 正确 算法 更 具 挑 战 性 ， 还 带 
有 一 点 探索 的 意味 。 

当 与 周围 环境 相 比 群 组 内 部 的 关系 较 密 时 ， 大 多 数 社团 发 现 算法 表现 得 相当 不 错 ， 但 在 现 
实 世 界 的 网 络 中 ， 这 一 特征 并 不 明显 。 通 过 将 算法 结果 与 已 知 社团 数据 的 基准 进行 比较 ， 
可 以 验证 社团 发 现 的 准确 性 。 











最 著名 的 两 个 基准 是 Girvan-Newman (GN) 算法 和 Lancichinetti-Fortunato-Radicchi (LFR) 
算法 。 这 两 个 算法 生成 的 参考 网 络 极为 不 同 : GN 生成 一 个 较为 同 构 的 随机 网 络 ， 而 LFR 
创建 一 个 较为 异 构 的 图 ， 其 中 节点 的 度 和 社团 规模 按照 客 律 分 布 。 


由 于 测试 的 准确 性 取决 于 所 使 用 的 基准 ， 因 此 基准 与 数据 集 的 匹配 非常 重要 。 应 尽 可 能 寻 
找 密度 、 关 系 分 布 、 社 团 定义 和 相关 领域 相似 的 基准 。 























6.8 小结 
社团 发 现 算 法 有 助 于 理解 对 图 中 节点 进行 分 组 的 方式 。 


本 章 首先 介绍 了 三 角形 计数 和 聚 类 系数 ， 然 后 讨论 了 两 种 具有 确定 性 的 社团 发 现 算法 : 强 
连通 分 量 算法 和 连通 分 量 算法 。 这 些 算 法 对 社团 的 构成 有 严格 定义 ， 对 于 在 图 分 析 流 程 的 
早期 了 解 图 结构 非常 有 用 。 

本 章 还 介绍 了 标签 传播 算法 和 Louvain 模块 度 算法 ， 这 两 种 不 确定 性 算法 能 够 更 好 地 发 现 
较 细 粒度 的 社团 。Louvain 模块 度 算法 能 在 不 同 尺度 上 展示 社团 的 层级 。 


第 7 章 将 使 用 规模 更 大 的 数据 集 ， 介 绍 如 何 将 这 些 算法 组 合 使 用 ， 进 而 洞察 关联 数据 。 
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图 算法 实战 








随 着 对 各 种 算法 在 特定 数据 集 上 的 表现 越 来 越 熟 悉 ， 我 们 所 采用 的 图 分 析 方 法 也 在 不 断 深 
入 。 本 章 将 介绍 几 个 示例 ， 展 示 如 何 针 对 Yelp 数据 集 和 美国 交通 数据 集 做 大 规模 图 数据 分 
析 。 我 们 将 在 Neo4j 平台 上 分 析 Yelp 数据 ， 包 括 概览 数据 ， 组 合算 法 实现 行程 推荐 ， 以 及 
挖掘 用 户 数据 和 业务 数据 以 供 和 咨询。 我 们 将 在 Spark 中 研究 美国 航空 公司 数据 ， 了 解 交通 
模式 、 航 班 延误 以 及 各 航空 公司 与 机 场 的 关联 方式 。 


由 于 路 径 查 找 算法 相对 简单 ， 因 此 示例 主要 采用 下 述 中 心性 算法 和 社团 发 现 算法 。 
































。 用 PageRank 算法 查找 有 影响 力 的 Yelp 评论 者 ， 然 后 关联 他 们 对 特定 酒店 的 评级 。 
。 用 中 间 中 心性 算法 发 现 连接 多 个 群 组 的 评论 者 ， 然 后 获取 他 们 的 偏好 。 

。 用 标签 传播 算法 以 及 投影 操作 为 相似 的 Yelp 业务 创建 超 类 别 。 

。 用 度 中 心性 算法 在 美国 交通 数据 集中 快速 识别 机 场 枢纽 。 

。 用 强 连通 分 量 算法 研究 美国 机 场 的 航线 簇 。 


7.1 使 用 Neo4j 分 析 Yelp 数 据 


Yelp 根据 评论 、 偏 好 和 推荐 帮助 人 们 查找 当地 商家 。 截 至 2018 年 底 ， 用 户 在 该 平台 上 已 
发 表 1.8 亿 多 条 评论 。Yelp 自 2013 年 起 举办 了 多 场 Yelp 数据 集 挑 战 赛 ， 鼓 励 人 们 探索 和 
研究 Yelp 的 开放 数据 集 。 


第 12 届 Yelp 数据 集 挑战 赛 于 2018 年 举办 ， 其 开放 数据 集 包 含 以 下 内 容 。 






































。 700 多 万 条 评论 和 提示 。 
150 多 万 用 户 和 28 万 张 照片 。 
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。 超过 18.8 万 户 商家 ， 涉 及 140 万 个 属性 。 
。 和 覆盖 10 个 大 都 市 地 
该 数据 集 自发 布 以 来 广 受 欢迎 ， 有 数 百 篇 学 术 论 文 使 用 了 其 中 的 数据 。Yelp 数据 集 代 表 了 
具有 良好 数据 结构 且 高 度 互联 的 真实 数据 。 该 数据 集 很 适 于 展示 图 算法 ， 你 可 以 下 载 该 数 
据 集 并 进行 研究 。 


[| 





7.1.1 Yelp 社 交 网 络 
除了 撰写 和 阅读 关于 商家 的 评论 ，Yelp 用 户 还 形成 了 一 个 社交 网 络 。 用 户 在 浏览 Yelp 官 
网 时 可 以 向 遇 到 的 其 他 用 户 发 送 好 友 请 求 ， 也 可 以 关联 其 通讯 录 或 Facebook 图 。 





























y yy 和 日 Wp yes 5 六 二 
Yelp 数据 集 也 含有 社交 网 络 。 7-1 是 Mark 的 Yelp 个 人 资料 中 Friends 部 分 的 屏幕 截图 。 
Mark N. 回 Add Profile Photos 
San Francisco, CA 国 Update Your Profile 
$3 1Frend 回 oReviews 加 0Photos 活 ，Find Friends 
Friends 
Mark's Profile Sort by: Recently Active ~ Read Recent Reviews “Manage Friends 
本 Profile Overview 
Ujubica L. 
3 Friends San Francisco, CA 
31 Bo 
回 Reviews 
Page 1 of 1 
只 Compliments 











7-1: Mark 的 Yelp 个 人 资料 


除了 需要 给 Mark 多 添加 几 个 朋友 之 外 ， 其 他 一 切 都 已 经 准备 就 结 了 。 为 了 说 明 如 何在 
Neo4j 中 分 析 Yelp 数据 ， 这 里 考虑 旅游 信息 提供 商 的 工作 场景 。 首 先 探查 Yelp 数据 ， 然 后 
看 看 如 何 用 应 用 程序 帮助 人 们 计划 行程 。 本 音 将 逐步 介绍 如 何在 像 拉 斯 维 加 斯 这 样 的 大 城 
市 里 查找 关于 住宿 和 游玩 的 建议 。 








另 一 部 分 业务 场景 是 为 旅游 目的 地 的 商家 提供 咨询 。 下 面 通 过 示例 说 明 如 何 帮 助 酒店 识别 
影响 力 的 客人 ， 然 后 帮 其 确定 应 该 针对 哪些 业务 开展 促销 活动 。 


7.1.2 导入 数据 


将 数据 导入 Neo4j 有 多 种 方法 ， 包 括 使 用 导入 工具 、 采 用 LOAD CSV 命令 (之 前 讲 过 ) 和 
Neo4j 驱动 程序 等 。 
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对 于 Yelp 数据 集 而 言 ， 由 于 需要 一 次 性 导 和 大量 数 据 ， 因 此 导入 工具 是 最 佳 选择 ， 详 见 
附录 。 


7.1.3 ”图 模型 


Yelp 数据 可 用 图 7-2 所 示 的 图 模型 表示 。 


= 一 IN_cnmy- @ REVIEWS @ 
2 
人 
从 
C) 
Category 


该 图 包含 带 有 User 标记 的 节点 ， 该 节点 与 其 他 User 有 FRIENDS 关系 。User 还 会 撰写 关 
于 Business 的 Review 和 提示 。 所 有 元 数据 都 以 节点 属性 存储 ， 而 业务 类 别 除外 ， 单 独 用 
Category 节点 表示 。 将 属性 city 和 Area 抽取 到 子 图 中 ， 可 得 到 位 置 数据 。 在 其 他 用 例 中 ， 
将 日 期 等 其 他 属性 抽取 到 节点 或 将 节点 折 又 到 关系 (如 评论 ) 也 很 有 意义 。 


Yelp 数据 集 还 包括 用 户 提 示 和 照片 ， 但 本 例 不 会 用 到 这 些 信息 。 
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图 7-2: Yelp 图 模型 














7.1.4 ” Yelp 数据 概览 

将 数据 加 载 到 Neo4j 中 后 ， 就 可 以 执行 一 些 探索 性 查询 了 。 为 了 了 解 Yelp 数据 ， 要 探查 每 
个 类 别 中 的 节点 数量 和 存在 的 关系 类 型 。 之 前 展示 了 针对 Neo4 示例 的 Cypher 查询 ， 不 过 
还 可 以 用 另 一 种 编程 语言 来 执行 这 些 查 询 。 由 于 Python 是 数据 科学 家 的 首选 语言 ， 因 此 在 
想 把 结果 关联 到 Python 生态 系统 中 的 其 他 库 时 ， 可 使 用 Neo4j 的 Python 驱动 程序 。 如 果 
只 想 显 示 查 询 结 果 ， 则 可 直接 使 用 Cypher。 



































本 章 将 展示 如 何 把 Neo4j 与 流行 的 pandas 库 结 合 使 用 ， 该 库 可 有 效 整 理 数 据 库 外 部 的 数据 。 
本 章 还 将 介绍 如 何 使 用 tabulate 库 来 美化 从 pandas 获得 的 结果 ， 以 及 如 何 使 用 matplotlib 库 
将 数据 可 视 化 。 


此 外 ， 还 可 以 使 用 Neo4j 的 APOC 程序 库 来 辅助 编写 功能 更 强大 的 Cypher 查询 。 附 录 将 
介绍 关于 APOC 的 更 多 内 容 。 
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首先 安装 Python 库 ; 





pip install neo4j-driver tabulate pandas matpLotLib 
然后 ， 导 入 以 下 库 : 
from neo4j.v1 import GraphDatabase 


import pandas as pd 
from tabulate import tabulate 


在 macOS 上 导入 matplotlib 库 有 些 烦 琐 ， 但 是 用 以 下 代码 应 该 能 够 成 功 : 
import matplotlib 


matplotlib.use('TkAgg') 
import matplotlib.pyplot as plt 














如 果 在 其 他 操作 系统 上 运行 ， 可 能 不 需要 中 间 一 行 代 码 。 下 面 创建 一 个 指向 本 地 Neo4j 数 
据 库 的 Neo4j 驱动 程序 实例 。 

















driver = GraphDatabase.driver("bolt://localhost", auth=("neo4j", "neo")) 


要 使 用 自己 的 主机 和 证 书 ， 还 需要 更 新 驱动 程序 的 初始 值 。 








首先 研究 关于 节点 和 关系 的 一 些 常 规 数值 。 以 下 代码 计算 数据 库 中 节点 标签 的 基数 〈 计 算 
每 个 标签 对 应 的 市 点 数 ) : 


result = {"label": [], "count": []} 
with driver.session() as session: 
labels = [row["label"] for row in session.run("CALL db.labels()")] 
for label in labels: 
query = f"MATCH (: {LabeL} ) RETURN count(*) as count" 
count = session.run(query).single()["count"] 
result["label"].append(label) 
result["count"].append(count) 


df = pd.DataFrame(data=result) 


print(tabulate(df.sort_values("count"), headers='keys', 
tablefmt='psql', showindex=False)) 


行 以 上 代码 ， 可 以 看 到 每 个 标签 的 节点 数量 ， 如 下 所 示 : 








label count 
Area 54 
City 1093 
Category 1293 





Business 174567 
User 1326101 
Review 5261669 


可 以 通过 以 下 代码 来 将 基数 可 视 化 : 
plt.style.use('fivethirtyeight') 
ax = df.plot(kind='bar', x='label', y='count', legend=None) 
ax.xaxis.set label text("") 
plt.yscale("log") 
plt.xticks(rotation=45) 


plt.tight_layout() 
plt.show() 


以 上 代码 生成 的 图 表 如 图 7-3 所 示 。 注 意 ， 该 图 表 采 用 了 对 数 刻度 。 
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图 7-3: 每 个 标签 类 别 下 的 节点 数量 
同 理 ， 还 可 以 计算 关系 的 基数 : 











result = {"relType": [], "count": []} 
with driver.session() as session: 
rel_types = [row["relationshipType"] for row in session.run 
("CALL db.relationshipTypes()")] 
for rel_type in reL_types : 
query = f"MATCH ()-[:{reL type}]->() RETURN count(*) as count" 
count = session.run(query).single()["count"] 
result["relType"].append(rel_type) 
result["count"].append(count) 
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df = pd.DataFrame(data=result) 
print(tabulate(df.sort_values("count"), headers='keys', 
tablefmt='psql', showindex=False)) 


运行 这 段 代码 ， 可 以 得 到 每 种 关系 的 数量 ， 如 下 所 示 : 





relType count 
IN_AREA 1154 
IN_CITY 174566 
IN_CATEGORY 667527 
WROTE 5261669 
REVIEWS 5261669 
FRIENDS 10645356 











以 上 基数 的 图 表 如 图 7-4 所 示 。 和 节点 基数 图 表 一 样 ， 该 图 表 也 使 用 了 对 数 刻 度 。 
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图 7-4: 按 关系 类 型 划分 的 关系 数量 


这 些 查询 并 没有 揭示 任何 惊人 的 结果 ， 但 有 助 于 了 解数 据 的 内 容 。 还 可 以 通过 这 些 碍 询 结 
果 快 速 检 查 导 入 的 数据 是 否 正确 。 


假设 Yelp 有 很 多 关于 酒店 的 评论 ， 但 是 在 关 广 评 论 区 之 前 有 必要 先进 行 检 查 。 执 行 以 下 查 
询 ， 可 了 解数 据 中 酒店 和 评论 的 数量 。 


MATCH (category:Category {name: "Hotels"}) 
RETURN size((category)<-[:IN_CATEGORY]-()) AS businesses, 
size((:Review)-[:REVIEWS]->(:Business)-[:IN_CATEGORY]-> 
(category)) AS reviews 




















结果 如 下 所 示 : 


businesses reviews 


2683 183759 


确实 有 很 多 酒店 和 评论 。 接 下 来 在 业务 场景 中 进一步 研究 数据 。 


7.1.5 行程 规划 应 用 程序 

为 了 在 应 用 程序 中 增加 受 欢迎 的 推荐 功能 ， 首 先 要 找到 评级 最 高 的 酒店 ， 以 供 热门 预订 的 
启发 式 函 数 使 用 。 可 以 添加 其 评级 信息 以 了 解 实际 体验 。 使 用 以 下 代码 查看 评论 最 多 的 前 
10 家 酒店 并 绘制 评级 分 布 图 : 


# 查找 评论 最 多 的 前 16 家 酒店 

query = """ 

MATCH (review:Review)-[:REVIEWS]->(business:Business), 
(business)-[:IN_CATEGORY]->(category:Category {name: $category}), 
(business)-[:IN_CITY]->(:City {name: $city}) 

RETURN business.name AS business, collect(review.stars) AS allReviews 

ORDER BY size(allReviews) DESC 

LIMIT 10 











fig = plt.figure() 
fig.set_size _inches(10.5, 14.5) 
fig.subplots_adjust(hspace=0.4, wspace=0.4) 


with driver.session() as session: 
params = { "city": "Las Vegas", "category": "Hotels"} 
result = session.run(query, params) 
for index, row in enumerate(result): 
business = row["business"] 
stars = pd.Series(row["allReviews"]) 


total = stars.count() 
average_stars = stars.mean().round(2) 


# 计算 星 级 分 布 
stars_histogram = stars.vaLue_counts().sort_index() 
stars_histogram /= fLoat(stars_histogram.sum()) 








# 绘制 直方 图 ， 以 展示 星 级 分 布 情况 
= fig.add_subplot(5, 2, index+1) 
stars_histogram.plot(kind="bar", legend=None, color="darkblue", 
title=f"{business}\nAve: 
{average_stars}, Total: {total}") 


























plt.tight_layout() 

plt.show() 
我 们 限定 城市 和 类 别 ， 仅 关注 拉 斯 维 加 斯 (Las Vegas) 的 酒店 。 0 可 得 到 
图 7-5 所 示 的 图 表 。 请 注意 ,x 轴 表 示 酒 店 的 评级 ，y 轴 表 示 各 评级 所 占 的 百分比 〈 由 小 数 
表示 )。 
































ARIA Resort & Casino 
Ave: 3.51, Total: 3794 


The Cosmopolitan of Las Vegas 
Ave: 3.87, Total: 3772 








- Nn m + n 


Luxor Hotel and Casino Las Vegas 
Ave: 2.63, Total: 3623 
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MGM Grand Hotel 
Ave: 2.99, Total: 3445 
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The Venetian Las Vegas 
Ave: 3.93, Total: 3103 
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Flamingo Las Vegas Hotel & Casino 
Ave: 2.48, Total: 2942 








Bellagio Hotel 
Ave: 3.71, Total: 2781 
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Mandalay Bay Resort & Casino 
Ave: 3.27, Total: 2688 
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7-5: 评论 数 最 多 的 前 10 家 酒店 ，x 轴 表 示 评级 ，y 轴 为 全 部 评级 所 占 百分比 
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人 们 不 可 能 阅读 全 部 的 酒店 评论 。 更 好 的 做 法 是 仅 给 出 与 用 户 相关 的 评论 ， 并 在 应 用 程序 
中 突出 显示 。 要 进行 这 样 的 分 析 ， 就 要 从 基本 的 探查 转向 使 用 图 算法 。 


查找 有 影响 力 的 酒店 评论 者 

要 判断 应 该 展示 哪些 评论 ， 方 法 之 一 就 是 根据 Yelp 上 评论 者 的 影响 力 对 评论 进行 排序 。 对 
所 有 至 少 浏览 过 3 家 酒店 的 用 户 进行 投影 ， 在 生成 的 图 上 运行 PageRank 算法 。 如 前 所 述 ， 
风 影 操作 有 助 于 过 滤 不 必要 的 信息 ， 还 可 以 添加 关系 数据 (有 时 是 推断 出 来 的 )。 我 们 将 
使 用 Yelp 的 朋友 图 (7.1.1 节 介 绍 过 ) 来 研究 用 户 之 间 的 关系 。PageRank 算法 将 揭示 那些 
对 多 数 用 户 有 较 大 影响 力 的 评论 者 (即使 他 们 并 没有 直接 的 朋友 关系 )。 




















如 果 两 个 人 互 为 Yelp 朋友 ， 他 们 之 间 就 有 两 个 FRIENDS 关系 。 如 果 A 和 B 是 
有 朋友， 那么 从 A 到 B 就 有 FRIENDS 关系 ， 从 B 到 A 也 有 FRIENDS 关系 。 








需要 写 一 个 查询 把 发 表 过 3 条 以 上 评论 的 用 户 投影 到 子 图 上 ， 然 后 在 该 投影 子 图 上 运行 
PageRank 算法 。 














举例 说 明子 图 投影 的 工作 流程 。 图 7-6 显示 了 3 个 互 为 朋友 的 用 户 Mark、Arya 和 Praveena 
之 间 的 关系 图 。Mark 和 Praveena 都 评价 了 3 家 酒店 ， 这 将 成 为 投影 图 的 一 部 分 ; 而 Arya 
只 评论 过 一 家 酒店 ， 因 此 将 被 排除 在 投影 图 之 外 。 






































7-6: 样 例 Yelp 
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投影 图 仅 包 含 Mark 和 Praveena， 如 图 7-7 所 示 。 











FRIENDS 


Praveena 


FRIENDS 














7-7: 样 例 投影 图 


图 投影 的 工作 原理 已 介绍 完毕 。 下 面 的 查询 在 投影 图 上 运行 PageRank 算法 ， 并 将 结果 存 
储 在 每 个 节点 的 hoteLPageRank 属性 中 。 
CALL algo.pageRank( 


'MATCH (u:User)-[:WROTE]->()-[:REVIEWS]->()-[:IN_CATEGORY]-> 
(:Category {name: $category}) 





WITH u, count(*) AS reviews 
WHERE reviews >= $cutOff 
RETURN id(u) AS id', 
'MATCH (ui:User)-[:WROTE]->()-[:REVIEWS]->()-[:IN_CATEGORY]-> 
(:Category {name: $category}) 
MATCH (u1)-[ :FRIENDS]->(u2) 
RETURN id(u1) AS source，id(u2) AS target ' ， 
{graph: "cypher", write: true，writeProperty: "hoteLPageRank" ， 
params: {category: "HoteLs" ，cutoff: 3}} 
) 


可 以 看 到 ， 这 里 并 没有 像 第 $ 章 那 样 设置 阻尼 系数 或 最 大 迭代 限制 。 如 果 没 有 显 式 设置 ， 
Neo4j 默认 将 阻尼 系数 设 为 0.85， 将 maxIterations 设 为 20。 


下 面 看 看 PageRank 值 的 分 布 情况 ， 以 及 如 何 筛 选 数 据 。 


MATCH (u:User) 

WHERE exists(u.hoteLPageRank) 

RETURN count(u.hoteLPageRank) AS count， 
avg(u.hoteLPageRank) AS ave， 
percentileDisc(uy.hotelPpageRank, 0 
percentileDisc(uy.hotelPageRank, 0 
percentileDisc(uy.hotelPageRank, 0.90) AS ‘90%., 
percentileDisc(uy.hotelPageRank, 0.95) AS ‘95%., 
percentileDisc(uy.hotelPpageRank, 0.99) AS ‘99%., 

0 
0 
0 
1 





.5) AS ‘50%., 
.75) AS ‘75%, 


percentileDisc(uy.hotelPageRank, 0.999) AS ‘99.9%., 
percentileDisc(uy.hotelPageRank, 0.9999) AS ‘99.99%., 
percentileDisc(uy.hotelPageRank, 0.99999) AS ‘99. 999%、 > 
percentiLeDisc(u.hoteLPageRank，1) AS “100% 


执行 该 查询 ， 结 果 如 下 所 示 : 


count ave 50% 75% © 90% 95% 99% 99.9% 99.99% 99.999% 100% 
1326101 0.1614898 0.15 0.15 0.157497 0.181875 0.330081 1.649511 6.825738 15.27376 22.98046 
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先 解释 该 百分比 表 : 90% 对 应 0.157497， 这 意味 着 有 90% 的 用 户 PageRank 得 分 较 低 。 
99.99% 反映 了 前 0.01% 评论 者 的 影响 力 排 名 ， 而 100% 是 最 高 的 PageRank 得 分 。 


有 趣 的 是 ，90% 的 用 户 得 分 低 于 0.16， 接 近 总 体 平 均 水 平 ， 仅 略 高 于 PageRank 算法 初始 
化 时 的 0.15。 这 些 数据 似乎 反映 出 一 种 震 律 分 布 一 极 具 影 响 力 的 评论 者 很 少 。 


因为 我 们 只 想 找到 最 具 影响 力 的 用 户 ， 所 以 编写 查询 查找 PageRank 得 分 在 前 0.1% 的 用 





户 。 下 下 














// 仅 查 找 hotelPageRank 评 分 在 前 90.1% 的 用 户 


MATCH (u 


:User) 


WHERE u.hotelPageRank > 1.649511 


// 查找 这 些 用 户 





FP 的 前 19 位 


WITH U ORDER BY u.hotelpageRank DESC 


LIMIT 10 


RETURN U 


.Name AS name, 


U.hoteLPageRank AS pageRank, 
size((u)-[:WROTE]->()-[:REVIEWS]->()-[:IN_CATEGORY]-> 
(:Category {name: "Hotels"})) AS hotelReviews, 


size((u)-[:WROTE]->()) AS totalReviews, 


size((U)-[:FRIENDS]-()) AS friends 


ij 的 查询 查找 PageRank 得 分 高 于 1.649511 的 评论 者 (注意 ， 这 是 99.9% 的 群 组 ) : 





执行 该 查询 ， 结 果 如 下 所 示 : 
name pageRank hoteLReviews totalReviews friends 
Phil 17.361242 15 134 8154 
Philip 16.871013 21 620 9634 
Carol 12.416060999999997 6 419 6218 
Misti 12.239516000000004 19 730 6230 
Joseph 12.003887499999998 5 32 6596 
Michael 11.460049 地 Sl 6572 
J] 11.431505999999997 103 1322 6498 
Abby 11.376136999999998 9 82 T9222 
Erica 10.993773 6 15 7071 
Randy 10.748785999999999 21 125 7846 


时 


非 


影响 力 的 人 有 关联 ， 但 是 女 





这 些 结果 表明 ， 虽 然 Phil 并 没有 评论 过 很 多 酒店 ， 但 他 是 最 可 信 的 评论 者 。 他 很 可 能 和 一 
些 非 党 


Ip 果 想 要 一 系列 新 评论 ， 从 个 人 资料 来 看 ， 他 并 非 最 佳 
人 选 。Philip 的 得 分 略 低 ， 但 是 他 的 朋友 最 多 ， 而 且 他 写 的 评论 在 数量 上 大 约 是 Phil 的 5 





音 。 虽 然 了 写 的 评论 最 多 ， 也 有 相当 多 的 朋友 ,但 是 了 的 PageRank 得 分 并 不 是 最 高 的 ， 不 
过 仍 位 列 前 十 。 在 本 应 用 程序 中 ， 我 们 重点 推送 Phil、Philip 和 J 的 酒店 评论 ， 其 中 J 的 影 
响 力 和 评论 量 综合 最 优 。 





通过 关联 评论 改进 了 应 用 程序 的 内 置 推荐 功能 ， 下 夯 














i 转向 另 一 项 业务 




















咨询 。 








7.1.6 旅游 商务 咨询 
作为 咨询 服务 的 一 部 分 ， 当 有 影响 力 的 客人 写 下 入 住 体 验 后 ， 酒 店 可 订阅 消息 提醒 ， 以 便 
采取 必要 措施 。 首 先 看 看 Bellagio 酒店 的 评级 ， 按 最 有 影响 力 的 评论 者 进行 排序 : 





query = """\ 
MATCH (b:Business {name: S$hotel}) 
MATCH (b)<-[:REVIEWS]-(review)<-[:WROTE]-(user) 
WHERE exists(user.hotelPpageRank) 
RETURN user.name AS name， 
user .hoteLPageRank AS pageRank, 
review.stars AS stars 


with driver.session() as session: 
params = { "hotel": "Bellagio Hotel" } 


df = pd.DataFrame([dict(record) for record in session.run(query, params)]) 
df = df.round(2) 
df = df[["name", "pageRank", "stars"]] 


top_reviews = df.sort_values(by=["pageRank"], ascending=False).head(10) 
print(tabulate(top_reviews, headers='keys', tablefmt='psql', showindex=False)) 


运行 以 上 代码 ， 结 果 如 下 所 示 : 





name pageRank stars 
Misti 12.239516000000004 5 
Michael 11.460049 4 
3 11.431505999999997 5 
Erica 10.993773 4 
Christine 10.740770499999998 4 
Jeremy 9.576763499999998 5 
Connie 9.118103499999998 5 
Joyce 7.621449000000001 4 
Henry 7.299146 5 
Flora 6.7570075 4 


请 注意 ， 该 结果 和 此 前 的 酒店 最 佳 评论 者 列表 不 同 ， 这 是 因为 它 只 列 出 了 为 Bellagio 酒店 
评级 的 评论 者 。 








Bellagio 酒店 的 客服 团队 好 像 不 错 一 一 影响 力 前 10 位 的 评论 者 都 给 出 了 很 高 的 评级 。 酒 店 
可 能 希望 吸引 这 些 人 再 次 入 住 并 分 享 体验 。 








是 否 有 哪 位 有 影响 力 的 客人 没有 这 样 好 的 体验 ”可 以 运行 以 下 代码 来 查找 那些 PageRank 
得 分 很 高 但 给 出 评级 低 于 四 星 的 客人 : 





query = """\ 
MATCH (b:Business {name: $hotel}) 
MATCH (b)<-[:REVIEWS]-(review)<-[:WROTE]-(user) 
WHERE exists(user.hotelPageRank) AND review.stars < 5goodRating 
RETURN user .name AS name, 
User .hoteLPageRank AS pageRank ， 
review.stars AS stars 


with driver.session() as session: 
params = { "hotel": "Bellagio Hotel", "goodRating": 4 } 


df = pd.DataFrame([dict(record) for record in session.run(query, params)]) 


df = df.round(2) 
df = df[["name", "pageRank", "stars"]] 


top_reviews = df.sort values(by=["pageRank"], ascending=False).head(10) 


print(tabulate(top_reviews, headers='keys', tablefmt='psql', showindex=False)) 

















运行 这 段 代码 ， 结 果 如 下 所 示 : 





name pageRank stars 
Chris 5.84 3 
Lorrie 4.95 2 
Dani. 3.47 1 
Victor 3.35 3 
Francine 2.93 3 
Rex 2 19 2 
Jon 2 5 3 
Rachel 2.47 3 
Leslie 2.46 2 
Benay 2.46 | 


排名 最 高 的 用 户 Chris 和 Lorrie 给 了 Bellagio 酒店 较 低 的 评级 ， 他 们 位 列 前 100 





0 名 最 具 影 


响 力 的 用 户 (根据 之 前 的 查询 结果 )， 因 此 也 许 有 必要 单独 接洽 。 此 外 ， 由 于 许多 评论 者 会 








在 其 逗留 期 间 撰写 评论 ， 因 此 实时 向 商家 提醒 有 影 响 力 的 评论 者 ， 可 能 会 促进 双 





Bellagio 交叉 推广 





在 找到 有 影响 力 的 评论 者 之 后 ，Bellagio 酒店 现在 要 求 我 们 通过 那些 人 脉 广 的 客户 帮 





方 互动 。 





助 其 确定 其 他 交叉 推广 业务 。 我 们 的 方案 是 建议 他 们 吸引 不 同 社团 中 的 新 客户 以 巩固 








客户 基础 ， 这 是 新 的 机 会 。 可 以 用 之 前 介绍 过 的 中 间 中 心性 算法 计算 ， 找 HH 


4H 有 哪些 评 


论 过 Bellagio 酒店 的 人 不 仅 在 整个 Yelp 网 络 中 联系 广泛 ， 还 可 以 作为 不 同 群 组 之 间 的 





我 们 只 想 在 拉 斯 维 加 斯 查找 有 影响 力 的 人 ， 所 以 首先 标记 这 些 用 户 : 











MATCH (u:User) 

WHERE exists((u)-[:WROTE]->()-[:REVIEWS]->()-[:IN_CITY]-> 
(:City {name: "Las Vegas"})) 

SET U:LasVegas 


对 拉 斯 维 加 斯 的 用 户 运行 中 间 中 心性 算法 比较 耗 时 ， 因 此 我 们 将 使 用 其 变 体 ， 即 RA- 
Brandes 算法 。 访 算法 根据 采样 节点 计算 出 中 间 中 心性 得 分 ， 而 且 对 最 短路 径 的 搜索 只 到 
一 定 深度 。 


通过 几 次 实验 ， 我 们 用 与 默认 值 不 同 的 参数 设置 改进 结果 。 ee 
人 注意 ， 增 加 跳 数 和 市 
数量 通常 会 提高 准确 率 ， 但 是 计算 更 耗 时 。 针 对 特定 问题 ， 通常 需要 测试 最 优 参数 以 确定 
收益 递减 点 。 


下 面 的 查询 将 运行 该 算法 ， 并 将 结果 存储 在 between 性 质 中 : 











闻 























CALL algo.betweenness.sampled('LasVegas', "FRIENDS ' ， 
{write: true, writeproperty: "between", maxDepth: 4, probability: 0.2} 
》 


在 用 这 些 分 值 进行 查询 之 前 ， 可 先 写 一 个 探查 查询 ， 了 人 解 这 些 分 值 的 分 布 状况 : 


MATCH (u:User) 

WHERE exists(uy.between) 

RETURN count(u.between) AS count, 
avg(u.between) AS ave， 
toInteger(percentileDisc(uy.between, 
toInteger(percentileDisc(u.between, 3 
toInteger(percentileDisc(uy.between, 0.90)) AS ‘90%., 
toInteger(percentileDisc(u.between, 0.95)) AS ‘95%., 


0.5)) AS ‘50%., 
0 
0 
0 
toInteger(percentileDisc(uy.between, 0.99)) AS “99% 
0 
0 
0 
1 


.75)) AS “75%° 


toInteger(percentileDisc(uy.between, 0.999)) AS ‘99.9%, 
toInteger(percentileDisc(uy.between, 0.9999)) AS “99.99%  ， 
toInteger(percentileDisc(u.between, 0.99999)) AS “99.999% 、 ， 
toInteger(percentileDisc(u.between, 1)) AS p100 

















执行 上 述 查 询 ， 输 出 结果 如 下 所 示 : 


count ave 50% 75% 90% 95% 99% 99.9% 99.99% 99.999% 100% 
506028 320538.6014 0 10005 318944 1001655 4436409 34854988 214080923 621434012 1998032952 





有 一 半 用 户 的 得 分 为 0， 这 意味 着 他 们 的 人 脉 并 不 是 很 广 ， 而 前 1% (99% 列 ) 的 用 户 都 
位 于 50 万 用 户 之 间 的 400 多 万 条 最 短路 符 上 。 综 合 考 虑 ， 大 多 数 用 户 的 关系 网 很 差 .但 
有 少数 用 户 对 信息 具有 强 有 力 的 控制 ， 这 正 是 小 世界 网 络 的 典型 表现 。 


执行 以 下 查询 ， 找 出 谁 是 “超级 连接 者 ”: 


























MATCH(u:User)-[:WROTE]->()-[:REVIEWS]->(:Business {name:"Bellagio Hotel"}) 
WHERE exists(u.between) 
RETURN U.name AS user, 
toInteger(u.between) AS betweenness, 
U.hoteLPageRank AS pageRank, 
size((u)-[:WROTE]->()-[:REVIEWS]->()-[:IN_CATEGORY]-> 
(:Category {name: "Hotels"})) 
AS hotelReviews 
ORDER BY u.between DESC 





LIMIT 10 

输出 结果 如 下 所 示 ; 
USer betweenness pageRank hotelReviews 
Misti 841707563 12.239516000000004 19 
Christine 236269693 10.740770499999998 16 
Erica 235806844 10.993773 6 
Mike 215534452 NULL 2 
J 192155233 11.431505999999997 103 
Michael 161335816 5.105143 31 
Jeremy 160312436 9.576763499999998 6 
Michael 139960910 11.460049 43 
Chris 136697785 5.838922499999999 5 
Connie 133372418 9.118103499999998 7 


可 以 看 到 一 些 与 前 述 PageRank 分 值 查询 相同 的 人 ，Mike 是 有 趣 的 个 例 。 本 次 计算 将 其 排 
除 在 外 ， 这 是 因为 他 没有 评价 过 足够 多 的 (至 少 3 家 ) 酒店， 但 他 似乎 在 拉 斯 维 加 斯 的 


Yelp 





用 户 圈 里 人 脉 很 广 。 





为 了 触 达 更 多 用 户 ， 还 要 研究 这 些 “ 连 接 者 ”所 表现 出 的 其 他 偏好 ， 了 解 应 该 推广 的 内 














容 。 其 中 很 多 用 户 也 评价 过 和 餐馆， 所 以 可 用 以 下 查询 来 查找 他 们 最 喜欢 的 餐馆 : 





// 查找 评论 过 Bellagio 酒 店 的 前 50 位 用 户 

MATCH (u:User)-[:WROTE]->()-[:REVIEWS]->(:Business {name:"Bellagio Hotel"}) 
WHERE U.between > 4436409 

WITH U ORDER BY u.between DESC LIMIT 50 





// 查找 有 用 户 评 论 过 的 拉 斯 维 加 斯 餐馆 

MATCH (u)-[:WROTE]->(review)-[:REVIEWS]-(business) 

WHERE (business)-[:IN_CATEGORY]->(:Category {name: "Restaurants"}) 
AND (business)-[:IN_CITY]->(:City {name: "Las Vegas"}) 





// 仅 查 找 用 户 评论 数 大 于 3 的 餐馆 
WITH business, avg(review.stars) AS averageReview, count(*) AS numberOfReviews 
WHERE numberOfReviews >= 3 











RETURN business.name AS business, averageReview, numberOfReviews 


ORDER BY averageReview DESC, numberOfReviews DESC 
LIMIT 10 


该 查询 查找 了 前 50 名 有 影响 力 的 “连接 者 *， 并 且 查 找 排名 前 10 且 至 少 被 其 中 3 人 评级 








过 的 拉 斯 维 加 斯 餐馆 。 执 行 该 查询 ， 输 出 结果 如 下 所 示 : 


business averageReview numberOfReviews 
Jean Georges Steakhouse 5.0 6 
Sushi House Goyemon 5.0 6 
Art of Flavors 5.0 4 
e by José Andres 5.0 

Parma By Chef Marc 5.0 4 
Yonaka Modern Japanese 5 4 
Kabuto 5.0 4 
Harvest by Roy Ellamar 5.0 3 
Portofino by Chef Michael LaPLaca 5.0 3 
Montesano’s Eateria 5.0 3 





基于 此 ， 可 以 建议 Bellagio 酒店 与 这 些 餐 馆 联 合 推出 促销 活动 ， 以 吸引 那些 通常 无 法 触 达 


的 群体 中 的 新 顾客 。 给 Bellagio 酒店 评级 的 “超级 连接 者 ”是 很 好 
哪些 餐馆 可 能 会 吸引 新 类 型 的 目标 顾客 。 


在 帮助 Bellagio 酒店 触 达 新 的 顾客 群 组 后 ， 接 下 来 研究 如 何 使 用 社 
进 应 用 程序 。 


7.1.7 查找 相似 类 别 




















的 代理 人 ， 有 助 于 评估 








团 发 现 算法 来 进一步 改 











当 终端 用 户 使 用 这 款 应 用 程序 查找 酒店 时 ， 我 们 希望 向 其 展示 他 们 可 能 感 兴 趣 的 其 他 商 
家 。Yelp 数据 集 包 含 1000 多 个 类 别 ， 甚 中 一 些 类 别 很 相似 。 可 以 利用 这 种 相似 性 在 应 用 














程序 中 向 用 户 推荐 他 们 可 能 感 兴趣 的 新 商家 。 











在 当前 的 图 模型 中 ， 类 别 之 间 没 有 任何 关系 ， 但 是 可 以 运用 2.3.6 节 所 介绍 的 思想 ， 基 于 














商家 自己 确定 的 分 类 来 构建 一 个 类 别 相 似 图 。 

















假设 一 个 商家 同时 属于 Hotels 类 和 Historical Tours 类 ， 如 图 7-8 所 示 。 




















图 7-8: 涉及 两 个 类 别 的 商家 
这 可 以 产生 一 个 投影 图 ， 其 中 Hotels 和 Historical Tours 这 两 个 类 别 之 间 有 一 条 权重 为 1 
的 关联 关系 ， 如 图 7-9 所 示 。 


~- 


图 7-9: 类 别 投 影 图 
在 这 种 情况 下 ， 实 际 上 并 不 需要 创建 类 别 相 似 图 ， 相反 ， 可 以 在 投影 相似 图 上 运行 标签 传 
播 算 法 等 社团 发 现 算法 。 使 用 标签 传播 算法 可 以 有 效 地 将 商家 聚 类 到 与 其 最 相近 的 超 类 别 : 



































CALL algo.labelPropagation.stream( 
'MATCH (c:Category) RETURN id(c) AS id', 
'MATCH (ci:Category)<-[:IN_CATEGORY]-()-[:IN_CATEGORY]->(c2:Category) 
WHERE id(c1) < id(c2) 
RETURN id(c1) AS source, id(c2) AS target, count(*) AS weight', 
{graph: "cypher"} 

) 

YIELD nodeId, label 

MATCH (c:Category) WHERE id(c) = nodeId 

MERGE (sc:SuperCategory {name: "SuperCategory-" + label}) 

MERGE (c)-[:IN_SUPER CATEGORY]->(sc) 
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可 以 为 这 些 超 类 别 起 一 个 更 友好 的 名 称 ， 以 便 涵盖 大 多 数 类 别 : 


MATCH (sc:SuperCategory)<-[:IN_SUPER_CATEGORY]-(category) 

WITH sc, category, size((category)<-[:IN_CATEGORY]-()) as size 
ORDER BY size DESC 

WITH sc, collect(category.name)[0] as biggestCategory 

SET sc.friendlyName = "SuperCat " + biggestCategory 


类 别 和 超 类 别 如 图 7-10 所 示 。 
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7-10; 类 别 和 超 类 别 


下 面 的 查询 可 以 查找 拉 斯 维 加 斯 当地 与 Hotels 最 相似 的 类 别 : 


MATCH (hotels:Category {name: "Hotels"}), 
(lasVegas:City {name: "Las Vegas"}), 
(hotels)-[:IN_SUPER_CATEGORY]->()<-[:IN_SUPER_CATEGORY]- 


(otherCategory) 
RETURN otherCategory.name AS otherCategory, 


size((otherCategory)<-[:IN_CATEGORY]-(:Business)- 
[:IN_CITY]->(lasVegas)) AS businesses 
ORDER BY count DESC 
LIMIT 10 


执行 该 查询 ， 输 出 如 下 所 示 : 





140 | 第 7 章 





otherCategory 


businesses 





Tours 

Car Rental 

Limos 

Resorts 

Airport Shuttles 
Taxis 

Vacation Rentals 
Airports 
Airlines 


Motorcycle Rental 


这 些 结果 看 起 来 奇怪 四 ?旅游 (Tours) 和 出 租车 (Taxis) 显然 都 不 是 酒店 ， 但 请 记 住 ， 


189 
160 
84 
73 
52 
35 
29 
25 
23 
19 





这 是 基于 自行 申报 的 分 类 得 到 的 结果 。 标 签 传播 算法 在 该 相似 分 组 中 真正 揭示 的 是 邻近 的 


商家 和 服务 。 


下 面 看 看 在 这 些 类 别 中 哪些 商家 的 评级 高 于 平均 水 平 : 


// 查找 与 酒店 同属 某 个 超 类 别 的 拉 斯 维 加 斯 商家 
MATCH (hotels:Category {name: "Hotels"}), 
(hotels)-[:IN_SUPER CATEGORY]->()<-[:IN_SUPER_CATEGORY]- 








(otherCategory), 


(otherCategory)<-[:IN_CATEGORY]- (business) 
WHERE (business)-[:IN_CITY]->(:City {name: "Las Vegas"}) 




















// 随机 选择 16 个 类 别 并 且 计 算 第 99 百 分 位 星 级 评级 
WITH otherCategory, count(*) AS count, 
collect(business) AS businesses, 
percentileDisc(business.averageStars, 0.9) AS p90Stars 
ORDER BY rand() DESC 


LIMIT 10 


// 使 用 模式 理解 从 平均 评级 高 于 第 99 百 分 位 的 那些 类 别 中 选择 商家 
// 每 个 类 别 选择 一 个 商家 
WITH otherCategory, [b in businesses Where b.averageStars >= p90Stars] 





AS businesses 


// Select one business per category 
WITH otherCategory, businesses[toInteger(rand() * size(businesses))] AS business 


RETURN otherCategory.name AS otherCategory, 
business.name AS business, 
business.averageStars AS averageStars 





在 该 查询 中 首次 用 到 了 模式 理解 。 模 式 理解 是 一 种 基于 模式 匹配 创建 列表 的 语法 结构 。 它 
使 用 MATCH 子 句 和 WHERE 子 句 为 谓词 查找 特定 模式 ， 然 后 生成 一 个 自 定义 投影 。Cypher 的 
这 一 功能 是 受 GraphQL (一 种 API 查询 语言 ) 的 启发 而 增加 的 。 











执行 该 查询 ， 结 果 如 下 所 示 : 





otherCategory business averageStars 
Motorcycle Rental Adrenaline Rush Slingshot Rentals 5.0 

Snorkeling Sin City Scuba 5.0 

Guest Houses Hotel Del Kacvinsky 5.0 

Car Rental The Lead Team 5.0 

Food Tours Taste BUZZ Food Tours 5.0 

Airports Signature Flight Support 5.0 

Public Transportation JetSuiteX 4.6875 

Ski Resorts Trikke Las Vegas 4.833333333333332 
Town Car Service MW Travel Vegas 4.866666666666665 
Campgrounds McWilliams Campground 35875 


然后 可 以 根据 用 户 在 应 用 程序 中 的 即时 行为 进行 实时 推荐 ， 例 如 当 用 户 关 广 拉 斯 维 加 斯 的 








方 的 任何 业务 类 别 (例如 餐馆 或 剧院 )。 








酒店 时 ， 可 以 突出 显示 该 城市 各 类 与 之 邻近 的 好 评 商家 。 还 可 以 将 这 些 方法 推广 到 任何 地 





练习 


。 对 于 某 家 特定 的 酒店 或 其 他 商家 ， 又 如 何 呢 ? 





。 你 能 描绘 出 对 某 个 城市 的 酒店 的 评论 随 着 时 间 如 何 变化 吗 ? 


。 人 和 气 变 化 体现 了 什么 趋势 (季节 性 趋势 或 其 他 趋势 ) ? 
。 最 具 影 响 力 的 评论 者 是 否 仅 连接 (出 连接 ) 到 其 他 有 影响 力 的 评论 者 ? 








7.2 ”使 用 Spark 分 析 航 班 数据 











下 面 利 用 另 一 个 场景 演示 如 何 使 用 Spark 分 析 美国 机 场 数据 。 假 设 你 是 数据 科学 家 ， 拥 有 
量 行程 计划 表 ， 和 希望 深入 挖掘 航空 公司 的 航班 数据 和 航班 延误 信息 。 首 先 研 究 机 场 信息 


和 航班 信息 ， 然 后 深入 研究 两 个 特定 机 场 的 航班 延误 情况 。 我 们 将 使 用 社团 发 现 算法 分 析 








航线 并 且 探寻 飞行 常客 积分 的 最 佳 使 用 方法 。 


可 从 美国 交通 部 获取 大 量 交通 信息 。 我 们 将 使 用 2018 年 5 月 的 航 旅 准时 性 数据 进行 分 析 ， 
其 中 涉及 当月 从 美国 出 发 和 到 达 美 国 的 航班 。 为 了 增加 关于 机 场 的 更 多 详细 信息 (比如 位 


置信 息 ) ， 还 将 从 独立 数据 源 OpenFlights 加 载 数据 。 


先 把 数据 加 载 到 Spark 中 。 如 前 所 示 ， 这 些 数据 保存 在 CSV 文件 中 ， 详 见 本 书 配套 文件 。 





nodes = spark.read.csv("data/airports.csv", header=Fal 


cleaned nodes = (nodes.select(" c1", " c3", " c4", "_c 
.filter(" _c3 = 'United States'") 
.withColumnRenamed("_c1", "name" 
.withColumnRenamed("_c4", "id")s 
.withColumnRenamed("_c6", "latitude") 
.withColumnRenamed("_c7", "longitude" 
idrop(" €3")) 

cleaned nodes = cleaned nodes[cleaned nodes["id"] != " 


se) 


6" "_c7") 


) 
\\N"] 


relationships = spark.read.csv("data/188591317_T_ONTIME.csv", header=True) 


cleaned_relationships = (relationships 


.Select("ORIGIN", "DEST", "FL_DATE", "DEP_DELAY", 
"ARR_DELAY", "DISTANCE", "TAIL_NUM", "FL_NUM", 


"CRS_DEP_TIME", "CRS 

"UNIQUE_CARRIER") 
.withColumnRenamed("ORIGIN", 
.withColumnRenamed("DEST", "d 


_ARR_TIME", 


SRE 
st") 


.withColumnRenamed("DEP_DELAY", "deptDelay") 
.withColumnRenamed("ARR_DELAY", "arrDelay") 
.withColumnRenamed("TAIL_NUM", "tailNumber") 
.withColumnRenamed("FL_NUM", "flightNumber") 


.withColumnRenamed("FL_DATE", 


"date") 


.withColumnRenamed("CRS_DEP_TIME", "time") 
.withColumnRenamed("CRS_ARR_TIME", "arrivalTime") 
.withColumnRenamed("DISTANCE", "distance") 
.withColumnRenamed("UNIQUE_CARRIER", "airline") 


.withColumn("deptDelay", 


F.col("deptDelay").cast(FloatType())) 


.withColumn("arrDelay", 


F.col("arrDelay").cast(FloatType())) 


.withColumn("time", F.col("time").cast(IntegerType())) 


.withColumn("arrivalTime", 


F.col("arrivalTime").cast(IntegerType())) 


) 


g = GraphFrame(cleaned_ nodes, cleaned relationships) 











因为 一 些 机 场 的 机 场 代码 不 适用 ， 所 以 必须 对 市 点 做 一 些 整 
列 名 ， 还 要 将 某 些 项 转换 为 恰当 的 数值 类 型 。 按 照 Spark 的 
要 确保 有 名 为 1d、dst 和 src 的 列 。 





理工 作 。 要 采用 更 便于 描述 的 


GraphFrames 库 的 要 求 ， 还 需 


我 们 还 将 单独 创建 一 个 DataFrame 对 象 ， 将 航空 公司 代码 映射 到 航空 公司 名 称 ， 稍 后 会 用 





到 该 对 象 。 


airlines_reference = (spark.read.csv("data/airlines.cs 
.Select("_ ci", "_c3") 
.withColumnRenamed("_c1", "name") 
.withColumnRenamed("_c3", "code")) 


v") 


airlines_reference = airlines_reference[airlines_reference["code"] != "null"] 





图 





7.2.1 探索 性 分 析 
首先 用 探索 性 分 析 了 解数 据 概况 ， 比 如 机 场 数量 : 
g.vertices.count() 


1435 
这 些 机 场 之 间 有 和 多少 连 接 ? 
g.edges.count() 


616529 


7.2.2 ”热门 机 场 
哪些 机 场 的 出 港 航班 最 多 ? 可 以 使 用 度 中 心性 算法 计算 出 港 航班 的 数量 : 








airports_degree = g.outDegrees.withColumnRenamed("id", "oId") 

full_airports degree = (airports_ degree 
.join(g.vertices, airports_ degree.old == g.vertices.id) 
.Sort("outDegree", ascending=False) 
.Select("id", "name", "outDegree")) 


full_airports_degree.show(n=10, truncate=False) 


运行 以 上 代码 ， 结 果 如 下 所 示 : 





id name outDegree 
ATL Hartsfield Jackson Atlanta International Airport 33837 
ORD Chicago 0*Hare International Airport 28338 
DFW Dallas Fort Worth International Airport 23765 
CLT Charlotte Douglas International Airport 20251 
DEN Denver International Airport 19836 
LAX Los Angeles International Airport 19059 
PHX Phoenix Sky Harbor International ALrport 15103 
SFO San Francisco International Airport 14934 
LGA La Guardia Airport 14709 
IAH George Bush Intercontinental Houston Airport 14407 


其 中 的 机 场 涉及 美国 的 多 个 大 都 市 ， 如 芝加哥 、 亚 特 兰 大 、 阁 杉 矶 和 纽约 ， 它 们 都 有 热门 
机 场 。 还 可 以 使 用 以 下 代码 把 出 港 航班 可 视 化 。 


plt.style.use('fivethirtyeight') 


ax = (full_airports_degree 
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.topandas() 
.head(10) 
.plot(kind='bar', x='id', y='outDegree', legend=None)) 


ax.xaxis.set_ label text("") 
plt.xticks(rotation=45) 
plt.tight_layout() 
plt.show() 





可 视 化 结果 如 图 7-11 所 示 。 
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图 7-11: 机 场 出 港 航班 


航班 量 的 差异 很 明显 。 排 名 第 5 的 丹佛 国际 机 场 (DEN) 的 出 港 航班 数量 仅 约 为 排名 第 1 
的 哈 兹 非 尔 德 -杰克逊 亚特兰大 国际 机 场 (AIL) 的 一 半 。 


7.2.3 源 自 ORD 的 延误 

假设 我 们 经 常 要 往返 于 美国 东西 海岸 之 间 ， 所 以 希望 了 解 经 过 像 芝 加 哥 奥 黑 尔 国际 机 场 
(ORD) 这 样 的 中 间 枢 纽 所 导致 的 延误 。 由 于 该 数据 集 也 包含 了 航班 延误 数据 ， 因 此 可 以 
直接 开展 研究 。 











以 下 代码 查找 ORD 出 港 航班 的 平均 延误 时 间 ， 并 按 目的 地 机 场 进行 分 组 : 


deLayed_fLights = (g.edges 
.filter("src = 'ORD' and deptDelay > 0") 
.groupBy("dst") 
.agg(F.avg("deptDelay"), F.count("deptDelay")) 
.withColumn("averageDelay", 
F.round(F.col("avg(deptDelay)"), 2)) 
.withColumn("numberOfDelays", 
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F.col("count(deptDelay)"))) 


(delayed_flights 
.join(g.vertices, delayed flights.dst == g.vertices.id) 
.Sort(F.desc("averageDelay")) 
.select("dst", "name", "averageDelay", "numberOfDelays") 
.Show(n=10, truncate=False)) 


在 按 目的 地 机 场 分 组 计算 平均 延迟 后 ， 可 将 Spark 生成 的 DataFrame 对 象 与 包含 所 有 机 场 
(顶点 ) 的 DataFrame 进行 连接 操作 ， 打 印 出 目的 地 机 场 的 全 名 。 





运行 以 上 代码 将 返回 航班 延误 最 严重 的 10 个 目的 地 机 场 ， 如 下 所 示 : 





dst name averageDelay numberOfDeLays 
CKB North Central West Virginia ALrport 145.08 12 
0GG Kahului Airport 119.67 9 
MQT Sawyer International Airport 114.75 12 
MOB Mobile Regional Airport 102.2 10 
TIN Trenton Mercer Airport 101.18 
AVL Asheville Regional Airport 98.5 28 
ISP Long Island Mac Arthur Airport 94.08 13 
ANC Ted Stevens Anchorage International Airport 83.74 23 
BTV Burlington International Airport 83.2 25 
CMX Houghton County Memorial Airport 79.18 17 


这 很 有 趣 ， 有 一 项 数据 确实 很 突出 ， 从 ORD 到 CKB 的 12 次 航班 平均 延误 超过 两 小 时 ! 
下 面 查 找 这 两 个 机 场 之 间 的 航班 ， 看 看 发 生 了 什么 : 


from expr = 'id = "ORD"' 
to_expr = "id = "CKB"' 
ord_to ckb = g.bfs(from expr, to_expr) 


ord_to ckb = ord_to_ckb.select( 
F.col("e0.date"), 
F.col("e0.time"), 
F.coL("e0.fLightNumber " ) ， 
F.col("e0.deptDelay")) 


可 以 用 以 下 代码 绘制 航班 信息 : 


ax = (ord_to_ckb 
.sort("date") 
.topandas() 
.plot(kind='bar', x='date', y='deptDelay', legend=None)) 


ax.xaxis.set_ label_ text("") 
plt.tight_layout() 
plt.show() 
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运行 这 段 代 码 ， 得 到 图 7-12 所 示 的 图 表 。 
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图 7-12: 从 ORD 到 CKB 的 航班 

大 约 有 一 半 航 班 延误 ， 但 2018 年 5 月 2 日 的 延误 超过 14 小 时 ， 这 大 大 地 扭曲 了 平均 值 。 
如 果 想 查找 某 个 沿海 机 场 进 出 港 航班 的 延误 信息 要 怎么 办 ?这 些 机 场 经 常 受到 恶劣 天 气 条 
件 的 影响 ， 所 以 可 能 会 发 生 一 些 延 误 。 


7.2.4 SFO 的 糟糕 一 


来 看 旧金山 国际 机 场 (SFO) 的 航班 延误 情况 ， 访 机场 因 大 雾 导致 的 低能 见 度 问题 而 闻名 。 
分 析 方 法 之 一 就 是 研究 模 体 (motif) ， 即 重复 出 现 的 子 图 或 模式 。 


























Neo4j 中 的 图 模式 与 模 体 等 价 ， 可 通过 MATCH 子 句 或 Cypher 中 的 模式 表达 式 
发 现 。 





GraphFrames 支持 对 模 体 的 搜索 ， 因 此 可 以 将 航班 结构 用 作 查 询 的 一 部 分 。 下 面 用 模 体 来 
查找 2018 年 5 月 11 日 进出 SFO 延误 最 严重 的 航班 ， 代 码 如 下 : 


motifs = (g.find("(a)-[ab]->(b); (b)-[bc]->(c)") 
.filter("""(b.id = 'SFO') and 
(ab.date = '2018-05-11' and bc.date = '2018-05-11') and 
(ab.arrDelay > 30 or bc.deptDelay > 30) and 
(ab.flightNumber = bc.flightNumber) and 
(ab.airline = bc.airline) and 
(ab.time < bc.time)""")) 














模 体 (a)-[ab]->(b); (b)-[bc]->(c) 用 于 查找 进出 同一 机 场 的 航班 。 然 后 ， 算 选 所 生成 的 
模式 以 查找 航班 ， 要 求 如 下 : 


。 有 先后 顺序 ， 第 1 架 航 班 到 达 SFO 的 时 间 要 早 于 第 2 架 航班 离开 SFO 的 时 间 ， 
。 到 达 或 离开 SFO 的 延误 时 间 超过 30 分 钟 ， 
。 航班 号 和 航空 公司 相同 。 

















到 结果 并 选 





or 


圣 感 兴趣 的 列 : 


下 人 














result = (motifs.withColumn("delta", motifs.bc.deptDelay - motifs.ab.arrDelay) 
.Select("ab", "bc", "delta") 
.Sort("delta", ascending=False)) 


result. select( 
F.col("ab.src").alias("a1"), 
F.col("ab.time").alias("alDeptTime"), 
.Col("ab.arrDelay"), 
.Col("ab.dst").alias("a2"), 
.Col('"bc.time").alias("a2DeptTime"), 
.col("bc.deptDelay"), 
.col("bc.dst").alias("a3"), 
.col("ab.airline"), 
.col("ab.flightNumber"), 
F.col("delta") 
) .show() 


2 








我 们 还 计算 了 航班 进 港 和 出 港 之 间 的 时 间 差 (delta)， 以 确定 哪些 延误 可 以 真正 归 因 于 SFO。 
运行 代码 ， 结 果 如 下 所 示 : 





airline flightNumber al alDeptTime arrDelay a2 a2DeptTime deptDelay a3 delta 


WN 1454 PDX 1130 -18.0 SFO 1350 178.0 BUR 196.0 
00 5700 ACV 1755 -9.0 SFO 2235 64.0 RDM 73.0 
UA 753 BWI < 700 -3.0 SFO 1125 49.0 IAD 5249 
UA 1900 ATL 740 40.0 SEO 1110 77.0 SAN 37,0 
WN 157 BUR 1405 25.0 SFO 1600 39.0 PDX 14.0 
DL 745 DTN 835 34.0 SFO 1135 44.0 DTW 10.0 
WN 1783 DEN 1830 25..0 SFO 2045 33.0 BUR 8.0 
WN 5789 PDX ©1855 119.0 SEO 2120 117.0 DEN -2.0 
WN 1585 BUR 2025 31,0 SFO 2230 11.0 PHX -20.0 





出 现在 第 1 行 的 是 延误 情况 最 严重 的 WN1454， 它 很 早 到 达 ， 但 出 港 时 间 晚 了 近 3 小 时 。 
还 可 以 看 到 ， 在 arrDelay 列 中 有 一 些 负 值 ， 这 意味 着 航班 提前 到 达 了 SFO。 





还 要 注意 ， 有 些 航 班 (如 WN5789 和 WN1585) 要 在 SEO 补 时 ， 其 delta 值 为 负 。 





7.2.5 通过 航空 公司 互 连 的 机 场 

现在 假设 我 们 已 经 旅行 过 很 多 次 ， 并 且 想 用 飞行 常客 积分 尽 可 能 高 效 地 游览 更 多 目的 地 ， 
因为 这 些 积分 很 快 就 要 到 期 了 。 如 果 从 美国 某 个 机 场 出 发 ， 需 要 经 过 多 少 个 机 场 ， 才 可 以 
乘坐 同一 家 航空 公司 的 航班 返回 出 发 机 场 呢 ? 

















先 找 出 所 有 航空 公司 ， 计 算出 每 家 航空 公司 的 航班 数量 : 


airlines = (g.edges 
.groupBy("airline") 
.agg(F.count("airline").alias("flights")) 
.sort("flights", ascending=False)) 


full_name_airlines = (airlines_reference 
.join(airlines, airlines.airline 
== airlines_reference.code) 
.Select("code", "name", "flights")) 














创建 一 张 条 形 图 来 展示 航空 公司 的 情况 : 


ax = (full_name_airlines.topandas() 
.plot(kind='bar', x='name', y='flights', legend=None)) 


ax.xaxis.set_ label_text("") 


plt.tight_layout() 
plt.show() 


执行 该 查询 ， 输 出 结果 如 图 7-13 所 示 。 
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7-13: 航空 公司 的 航班 数量 











下 面 编 写 一 个 函数 ， 用 强 连通 分 量 算法 查找 每 家 航空 公司 的 机 场 分 组 ， 且 分 组 中 所 有 机 场 
都 有 往返 该 分 组 中 其 他 机 场 的 航班 : 




















def find_scc_components(g, airline): 
# 创建 只 包含 给 定 航空 公司 航班 的 子 图 
airline_relationships = g.edges[g.edges.airline == airline] 
airline _graph = GraphFrame(g.vertices, airline_relationships) 








# Calculate the Strongly Connected Components 
scc = airline_graph.stronglyConnectedComponents(maxIter=10) 





# 查找 最 大 分 量 的 大 小 并 和 返 

return (scc 
.groupBy("component") 
.agg(F.count("id").alias("size")) 
.sort("size", ascending=False) 
.take(1)[0]["size"]) 





Lo 








编写 以 下 代码 创建 一 个 DataFrame 对 象 ， 其 中 包含 每 家 航空 公司 及 其 最 大 强 连 通 分 量 中 的 
机 场 数 量 : 


# 计算 每 家 航空 公司 的 最 大 强 连通 分 量 
airline scc = [(airline, find_scc_ components(g, airline)) 

for airline in airlines.topandas()["airline"].tolist()] 
airline_scc_df = spark.createDataFrame(airline_scc, ['id', 'sccCount']) 








# 对 DataFrame 对 象 SCC 和 airlines 进 行 连接 运算 ,获取 航空 公司 的 航班 数量 

# 及 其 最 大 的 分 量 中 可 达 机 场 的 数量 

airline reach = (airline scc_df 
.join(full_name _airlines, full_name airlines.code == airline scc df.id) 
.Select("code", "name", "flights", "sccCount") 
.sort("sccCount", ascending=False)) 











然后 创建 条 形 图 来 展示 航空 公司 信息 : 


ax = (airline_reach.toPandas() 
.plot(kind='bar', x='name', y='sccCount', legend=None)) 


ax.xaxis.set label_ text("") 


plt.tight_layout() 
plt.show() 


执行 该 查询 ， 输 出 如 图 7-14 所 示 。 
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7-14: 航空 公司 可 达 机 场 的 数量 








一 方面 ，SkyWest 公司 拥有 最 大 的 社团 ， 其 中 有 200 多 个 强 连通 的 机 场 。 这 在 一 定 程度 
上 反映 出 它 作 为 一 家 联营 航空 公司 的 商业 模式 : 为 合作 的 航空 公司 运营 飞机 。 另 一 方面 ， 























Southwest 公司 的 航班 数量 虽然 最 多 ， 但 是 仅 连通 了 大 约 80 个 机 场 。 





假设 我 们 拥有 的 大 部 分 飞行 常客 积分 来 自 达 美 航空 公司 (DL)， 能 在 网 络 中 为 特定 航空 公 





司 找到 那些 形成 社团 的 机 场 吗 ? 


airline_relationships = g.edges.filter("airline = 'DL'") 
airline_graph = GraphFrame(g.vertices, airline_relationships) 


clusters = airline_graph.labelPropagation(maxIter=10) 
(clusters 

.Sort("LabeL'" ) 

.groupby("label") 

.agg(F.collect list("id").alias("airports"), 

F.count("id").alias("count")) 
.Sort("count", ascending=False) 
.Show(truncate=70, n=10)) 


执行 该 查询 ， 结 果 如 下 所 示 : 








label airports count 
1606317768706 [IND, ORF, ATW, RIC, TRI, XNA, ECP, AVL, JAX, SYR, BHM, GSO, MEM, C... 89 
1219770712067 [GEG, SLC, DTW, LAS, SEA, BOS, MSN, SNA, JFK, TVC, LIH, JAC, FLL, M... 53 
17179869187 [RHV] 1 
25769803777 [CAT] 1 
25769803776 [CDW] 1 
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25769803782 [KNW 


25769803778 [DRT] 
25769803779 [FOK 
25769803781 [HVR] 
42949672962 [GTF] 


DL 使 用 的 大 多 数 机 场 可 聚 类 为 两 个 分 组 ， 下 面 深 入 研究 。 因 








FF FF 


为 要 展示 的 机 场 太 多 ， 所 以 


只 展示 度 (进出 港 航 班 数 ) 最 大 的 机 场 。 编 写 以 下 代码 来 计算 机 场 的 度 : 


all_flights = g.degrees.withCoLumnRenamed("id"，"aId") 


然后 将 其 与 属于 最 大 禾 的 机 场合 并 处 理 : 





(CLusters 
.fiLLter("LabeL=1606317768706") 


.join(all_flights, all_flights.ald == result.id) 


H 














HS 


.sort("degree", ascending=False) 


.select("id", "name", "degree") 


.Show(truncate=False)) 





执行 该 查询 ， 输 出 结果 如 下 所 示 : 








id name degree 
DFW Dallas Fort Worth International Airport 47514 
CLT Charlotte Douglas International ALrport 40495 
IAH George Bush Intercontinental Houston Airport 28814 
EWR Newark Liberty International Airport 25131 
PHL Philadelphia International Airport 20804 
BWI Baltimore/Washington International Thurgood Marshall ALrport 18989 
MDW Chicago Midway International Airport 15178 
BNA Nashville International Airport 12455 
DAL Dallas Love Field 12084 
IAD Washington Dulles International Airport 11566 
STE Lambert St Louis International Airport 11439 
HOU William P Hobby Airport 9742 
IND Indianapolis International Airport 8543 
PIT Pittsburgh International Airport 8410 
Cl 下 CLeveLand Hopkins International ALrport 8238 
CMH Port Columbus International Airport 7640 
SAT San Antonio International ALrport 6532 
JAX Jacksonville International Airport 5495 
BDL Bradley International Airport 4866 
RSW Southwest Florida International Airport 4569 
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现在 对 第 2 大 徐 执 行 相同 的 操作 : 


(clusters 
.filter("label=1219770712067") 
.join(all_flights, all_flights.ald == result.id) 
.sort("degree", ascending=False) 
.Select("id", "name", "degree") 
.Show(truncate=False)) 


执行 该 查询 ， 结 果 如 下 所 示 : 





id name degree 
ATL Hartsfield Jackson Atlanta International Airport 67672 
ORD Chicago 0?*Hare International Airport 56681 
DEN Denver International Airport 39671 
LAX Los Angeles International Airport 38116 
PHX Phoenix Sky Harbor International Airport 30206 
SFO San Francisco International Airport 29865 
LGA La Guardia Airport 29416 
LAS McCarran International Airport 27801 
DTW Detroit Metropolitan Wayne County Airport 27477 
MSP Minneapolis-St Paul International/Wold-Chamberlain Airport 27163 
BOS General Edward Lawrence Logan International Airport 26214 
SEA Seattle Tacoma International Airport 24098 
MCO Orlando International Airport 23442 
JFK John F Kennedy International Airport 22294 
DCA Ronald Reagan Washington National Airport 22244 
SEE Salt Lake City International ALrport 18661 
FLL Fort Lauderdale Hollywood International Airport 16364 
SAN San Diego International Airport 15401 
MIA Miami International Airport 14869 
TPA Tampa International Airport 12509 














当 查 看 DL 网 站 上 的 飞行 常客 计划 时 ， 发 现 有 一 个 “用 二 送 一 ”的 促销 活动 。 如 果 在 两 次 
飞行 中 都 使 用 积分 ， 就 可 以 免费 再 飞 一 次 一 一 但 是 只 能 在 上 述 两 个 簇 之 一 的 航线 上 飞行 。 


也 许 仅 在 一 个 禾 的 航线 上 飞行 可 以 更 好 地 利用 时 间 ， 当 然 还 有 积 











练 习 


使 用 最 短路 径 算法 计算 从 你 所 在 的 城市 到 博 诊 曼 黄 石 国际 机 场 (BZN) 的 航班 数量 。 


如 果 使 用 关系 权重 ,会 有 什么 不 同 吗 ? 
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7.3 ”小结 


前 几 章 详细 介绍 了 如 何在 Spark 和 Neo4j 中 运用 路 径 查找 算法 、 中 心性 算法 和 社团 发 现 算 
法 等 重要 的 图 算法 。 本 章 介 绍 了 在 实际 的 任务 和 分 析 中 综合 运用 这 几 种 算法 的 工作 流程 。 
我 们 利用 旅游 业务 场景 说 明了 如 何在 Neo4j 中 分 析 Yelp 数据 ， 还 通过 个 人 航 旅 场景 学 习 了 
如 何在 Spark 中 分 析 美 国航 空 公司 数据 。 




















接 下 来 将 探讨 图 增强 机 器 学 习 ， 它 已 经 逐渐 成 为 图 算法 的 一 项 重要 应 用 。 
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第 8 和 章 


使 用 图 算法 增强 机 器 学 习 








前 面 介绍 了 儿 种 在 每 次 迭代 中 学 习 和 更 新 状态 的 算法 ， 比 如 标签 传播 算法 。 然 而 到 目前 为 
止 ， 重点 一 直 放 在 用 于 常规 分 析 的 图 算法 上 。 鉴 于 图 在 机 器 学 习 中 的 应 用 越 来 越 多 ,下 面 
研究 如 何 使 用 图 算法 来 改进 机 器 学 习 工 作 流程 。 





一 
































本 章 将 重点 介绍 使 用 图 算法 改进 机 器 学 习 预 测 的 实用 方法 : 关联 特征 提取 及 其 在 预测 关系 
中 的 应 用 。 首 先 介 绍 机 器 学 习 的 一 些 基 本 概念 ， 曾 述 上 下 文 数据 对 于 预测 的 重要 性 ， 然 后 
简单 介绍 图 特征 的 应 用 方式 ， 包 括 在 垃圾 邮件 检测 、 欺 诈 检 测 和 链接 预测 中 的 应 用 。 








本 章 将 介绍 如 何 创 建 一 个 机 器 学 习 管道 ， 然 后 训练 并 评估 链接 预测 模型 ， 并 将 Neo4 和 
Spark 集成 到 工作 流程 中 。 本 章 示例 基于 引文 网 络 数据 集 ， 其 中 包 仿 作者、 论文、 作者 关 
系 和 引用 关系 。 我 们 将 使 用 儿 个 模型 来 预测 论文 作者 之 间 将 来 有 无 可 能 合作 ， 并 演示 如 何 
用 图 算法 改进 结果 。 


8.1 机 器 学 习 和 上 下 文 的 重要 性 

机 器 学 习 不 是 人 工 智能 ， 而 是 实现 人 工 智 能 的 方法 。 机 器 学 习 使 用 算法 通过 特定 实例 和 基 
于 预期 结果 的 逐步 改进 来 训练 软件 ， 不 需要 显 式 编程 就 能 得 到 不 错 的 结果 。 在 训练 时 需要 
向 模型 提供 大 量 数据 ， 并 且 要 让 机 器 能 够 学 会 如 何 处 理 和 整合 这 些 信息 。 














从 这 个 意义 上 讲 ， 学 习 意 味 着 算法 的 迭代 ， 通 过 不 断 改 变 来 接近 某 一 客观 目标 ， 比 如 与 训 
练 数据 相 比 减少 分 类 错误 。 机 器 学 习 也 是 动态 的 ， 当 给 予 更 多 数据 时 能 够 修改 和 优化 自 
身 。 在 使 用 前 可 进行 多 批 次 训练 ， 而 在 使 用 过 程 中 可 进行 在 线 学 习 。 





155 





最 近 在 机 器 学 习 预 测 、 大 规模 数据 集 的 可 访问 性 以 及 并 行 计算 能 力 等 方面 的 突出 表现 ,使 
得 机 器 学 习 对 于 为 人 工 智 能 应 用 开发 概率 模型 来 说 变 得 更 加 实用 。 随 着 机 器 学 习 的 普及 ， 
应 牢记 其 基本 目标 : 像 人 类 一 样 做 出 选择 。 如 果 忘 记 了 该 目标 ， 可 能 只 会 得 到 另 一 个 高 度 
定向 、 基 于 规则 的 软件 版 本 。 


为 了 提高 机 器 学 习 的 准确 率 ， 并 使 解决 方案 得 到 广泛 应 用 ， 需 要 整合 大 量 上 下 文 信息 ， 就 
像 人 们 可 以 使 用 上 下 文 更 好 地 做 出 决策 一 样 。 人 们 通常 会 利用 周围 的 上 下 文 信息 ， 而 并 不 
仅 限 于 直接 的 数据 ， 借 此 找 出 某 种 情况 下 的 关键 信息 ， 佑 计 缺 失信 息 ， 并 决定 如 何 将 经 验 
应 用 于 新 情况 。 上 下 文 有 助 于 改进 预测 结果 。 


图 、 上 下 文 和 准确 率 

在 没有 外 围 信息 和 关联 信息 的 情况 下 ， 解 决 方案 要 试图 预测 行为 或 针对 不 同情 况 提 出 建 
议 ， 必 须 经 过 充分 训练 并 具有 合理 的 规则 。 这 在 某 种 程度 上 说 明了 为 何人 工 智能 擅长 具 
体 、 定 义 良 好 的 任务 ， 而 难以 处 理 二 义 性 问题 。 图 增强 机 器 学 习 有 助 于 填补 缺少 的 上 下 文 
信息 ， 这 些 信息 对 于 更 好 地 决策 非常 重要 。 

在 图 论 和 现实 生活 中 ， 关 系 往往 是 预测 行为 的 重要 因素 。 例 如 一 个 人 投了 票 ， 那 么 他 的 朋 


友 、 家 人 甚至 同事 等 投票 的 可 能 性 就 会 增加 。 图 8-1 展示 了 一 种 基于 投票 情况 和 Facebook 
好 友 的 连锁 反应 ， 来 自 Robert Bond 等 人 于 2012 年 发 表 的 一 篇 论文 。 

































朋友 “投票 ” 朋友 的 朋友 “投票 ” 
“我 已 投票 ” “我 已 投票 “我 已 投票 ” 
i”  @@* e000@™ 
6000 万 Facebook 用 户 增加 了 88.6 万 票 增加 了 100 万 票 











图 8-1: 人 们 的 投票 受 社交 网 络 影响 。 在 本 例 中 ， 两 跳 之 外 的 朋友 比 直接 关系 的 影响 更 大 


论文 作者 发 现 ， 公 开 了 投票 情况 的 朋友 影响 了 1.4% 宣称 投 过 票 的 用 户 ， 有 趣 的 是 ， 朋 友 
的 朋友 的 影响 为 1.7%。 小 百分比 也 可 以 产生 重要 影响 ， 图 8-1 显示 ， 两 跳 之 外 的 那些 人 总 
9 影响 比 直接 朋友 更 大 。Nicholas Christakis 和 James Fowler 合 著 的 《大 连接 》 一 书 谈 到 了 
入 票 问 题 以 及 其 他 一 些 受 社交 网 络 影响 的 示例 。 














添加 图 特征 和 上 下 文 可 以 改进 预测 结果 ， 特 别 是 在 关系 很 重要 的 情况 下 ， 例 如 零售 公司 不 
仅 使 用 历史 数据 ， 还 使 用 有 关 客 户 相似 性 和 在 线 行为 的 上 下 文 数据 进行 个 性 化 的 产品 推 
荐 。 虚 拟 智能 助手 Alexa 使 用 了 多 层 上 下 文 模型 来 提高 准确 率 。2018 年 ，Alexa 还 拥有 了 
上 下 文 接 转 功能 (context carryover) ， 在 回答 新 问题 时 可 以 将 之 前 的 参考 资料 纳入 对 话 中 。 
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然而 现在 许多 机 器 学 习 方 法 忽视 了 丰富 的 上 下 文 信息 ， 这 是 因为 机 器 学 习 依赖 通过 元 组 构 
建 的 输入 数据 ， 而 忽略 了 许多 预测 关系 和 网 络 化 的 数据 。 此 外 ， 上 下 文 信息 的 获取 并 不 总 
是 那么 容易 ， 也 许 很 难 访问 和 处 理 。 对 于 传统 方法 来 说 ， 查 找 4 跳 其 至 更 多 跳 数 之 外 的 联 
系 也 是 一 大 挑战 。 借 助 图 ， 即 可 轻松 获取 和 整合 那些 相互 关联 的 数据 。 


> 侣 1 4 工 十 日 Vn wl 
8.2 关联 特征 提取 与 特征 选择 
特征 提取 和 特征 选择 可 用 于 获取 原始 数据 ， 并 为 训练 机 器 学 习 模 型 创建 合适 的 子 集 和 格 
式 。 这 是 一 个 基础 步 又 ， 执 行 得 当 的 话 ， 机 器 学 习 的 预测 结果 会 更 一 致 、 更 准确 。 





























特征 提取 与 特征 选择 

特征 提取 (feature extraction) 用 于 将 大 量 数据 和 属性 提取 为 一 组 具有 代表 性 的 描述 性 
属性 。 该 过 程 针 对 输入 数据 的 个 性 特征 或 模式 获取 数值 (特征 )， 以 便 在 其 他 数据 中 区 
分 类 别 。 当 模型 难以 直接 分 析 数 据 时 (可 能 由 于 规模 、 格 式 或 偶然 需要 进行 比较 ) ， 就 
会 用 到 特征 提取 。 

特征 选择 (feature selection) 是 在 已 提取 特征 中 确定 对 定向 目标 最 重要 或 影响 最 大 的 子 
集 的 过 程 。 它 用 于 揭示 预测 的 重要 程度 和 效率 。 假 设 有 20 个 特征 ， 其 中 13 个 特征 加 
起 来 能 够 解释 92% 需要 预测 的 内 容 ， 那 么 可 以 在 模型 中 去 除 其 他 7 个 特征 。 











特征 的 正确 组 合 有 助 于 提高 准确 率 ， 这 是 因为 它 从 根本 上 影响 模型 的 学 习 方 式 。 因 为 即使 
很 小 的 改进 也 会 造成 显著 差别 ， 所 以 本 章 重点 介绍 关联 特征 〈connected feature) 。 关 联 特 
征 是 根据 数据 结构 提取 的 特征 。 这 些 特 征 既 可 以 通过 局 部 图 查询 得 到 〈 某 个 节点 周围 的 局 
部 图 )， 也 可 以 通过 全 局 图 查询 得 到 (基于 关联 特征 提取 所 用 的 关系 ， 使 用 图 算法 在 数据 
中 识别 预测 性 元 素 )。 



































重要 的 不 仅 是 要 得 到 正确 的 特征 组 合 ， 还 要 去 除 不 必要 的 特征 ， 以 防止 模型 的 针对 性 过 
强 。 这 样 做 可 以 避免 创建 仅 对 训练 数据 有 效 的 模型 〈 称 为 过 拟 合 ) ， 而 且 可 以 显著 扩展 适 
用 性 。 还 可 以 使 用 图 算法 来 评估 这 些 特 征 ， 并 确定 哪些 特征 对 模型 的 关联 特征 选择 影响 最 
大 。 例 如 可 以 将 特征 映射 为 图 的 节点 ， 基 于 相似 特征 创建 关系 ， 然 后 计算 特征 的 中 心 度 。 
特征 关系 可 以 根据 保持 簇 的 数据 点 密度 的 能 力 来 定义 。Khadidja Henni、Neila Mezghani 和 
Charles Gouin-Vallerand 在 论文 “Unsupervised Graph-Based Feature Selection Via Subspace and 
PageRank Centrality” 中 介绍 了 该 方法 ， 他 们 采用 了 高 维度 、 小 规模 样本 的 数据 集 。 









































图 内 入 
图 散 入 (graph embedding) 是 图 中 节点 和 关系 的 特征 向 量 (feature vector) 表示 。 特 征 
向 量 只 不 过 是 经 过 维度 映射 的 特征 集合 ， 如 图 8-2 所 示 的 (x,y,z) 坐标 。 
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等 多 种 算法 。 





图 表示 矩阵 表示 
pt 
/i 3 ds 
di 0 di 
oR de — DM=|y 
oo 3 
d d, dd 


向 量 表示 


姥 维 向 量 空间 





图 8-2: 图 说 入 将 图 数据 映射 到 特征 向 量 ， 这 些 特征 向 量 可 以 在 多 维 坐 标 系 中 进行 可 视 化 

图 谋 入 与 关联 特征 提取 在 图 数据 使 用 上 咯 有 不 同 。 图 谋 入 可 以 表示 整 张 图 或 图 数据 的 
子 集 ， 以 某 种 数值 格式 为 机 器 学 习 任 务 做 好 准备 。 这 对 于 无 监督 学 习 特 别 有 用 ， 因 为 
在 无 监督 学 习 中 数据 没有 分 类 ， 通 过 关系 可 以 获取 更 多 上 下 文 信息 。 图 嵌入 对 于 数据 
探查 、 计 算 实体 间 相 似 度 以 及 降低 维度 以 辅助 统计 分 析 等 也 很 有 用 。 


该 领域 发 展 迅 速 ， 已 经 出 现 了 node2vec、struc2vec、GraphSAGE、DeepWalk 和 DeepGL 





下 面 介绍 关联 特征 的 类 型 及 其 用 法 。 





8.2.1 图 特征 


图 特征 (graphy feature) 是 指 任意 数量 与 
系数 量 、 隐 含 的 三 角形 数量 和 共同 邻 节 点 
它们 易于 收集 ， 并 且 能 够 很 好 地 验证 早期 


此 外 ， 如 果 明 确 知道 目标 ， 那 么 可 以 使 用 特 和 












































F 工 各 


二 





图 的 关联 性 相关 的 度量 指标 ， 例 如 进出 市 点 的 关 
的 数量 等 。 本 章 将 通过 这 些 指标 研究 示例 ， 因 为 
段 设 。 





例如 想 知道 有 多 少 人 拥有 4 跳 以 上 的 





欺诈 账户 。 这 种 方法 使 用 图 遍历 可 以 非常 高 效 地 查找 关系 的 深层 路 径 ， 查 看 标签 、 属 性 、 


数量 和 推断 关系 。 














区 


上 述 过 程 很 容易 自动 化 ， 可 以 将 这 些 预测 性 区 





特征 提交 到 已 有 管道 中 ， 例 如 可 以 抽象 诈骗 








分 子 关系 数量 ， 并 将 该 数量 添加 为 节点 属性 ， 以 便 用 于 其 他 机 器 学 习 任务 。 


8.2.2 图 算法 特征 





如 果 知 道 所 要 寻找 的 一 般 结构 但 不 知道 确切 模式 ， 还 可 以 使 用 图 算法 来 寻找 特征 。 假 设 我 
们 发 现 某 些 类 型 的 社团 分 组 存在 欺诈 迹象 ， 也 许 其 中 存在 某 种 典型 的 关系 密度 或 层级 结 
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构 。 在 这 种 情况 下 ， 并 不 需要 某 个 确切 组 织 的 严格 特征 ， 而 只 要 一 种 灵活 且 全 局 相关 的 结 
构 。 本 章 示例 将 使 用 社团 发 现 算法 来 提取 关联 特征 ， 也 会 经 常用 到 像 PageRank 算法 这 样 
的 中 心性 算法 。 


此 外 ， 组 合 使 用 多 种 关联 特征 的 方法 往往 优 于 仅 使 用 单一 关联 特征 的 方法 。 例 如 可 以 将 关 
联 特 征 与 通过 Louvain 模块 度 算法 发 现 的 社团 、 使 用 PageRank 算法 计算 的 有 影响 力 的 节 
点 ， 以 及 已 知 诈骗 分 子 3 跳 之 外 的 度量 指标 综合 运用 来 预测 诈骗 。 











8-3 展示 了 一 种 组 合 方法 ， 其 作者 将 PageRank 算法 和 着 色 算 法 等 图 算法 与 人 度 和 出 度 
等 图 的 度量 指标 组 合 使 用 。 该 图 摘自 Shobeir Fakhraei 等 人 的 论文 “Collective Spammer 
Detection in Evolving Multi-Relational Social Networks” 。 











区 : 多 个 关系 要 比 多 种 
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联合 精炼 来 源 的 可 信和 度 
是 非常 有 效 的 
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8-3: 关联 特征 提取 可 以 与 其 他 预测 方法 组 合 使 用 以 改进 预测 结果 。AUPR 是 精确 率 - 召回 率 曲线 
之 下 的 面积 ， 数 值 越 大 越 好 


图 结构 部 分 展示 了 如 何 使 用 几 种 图 算法 提取 关联 特征 。 有 趣 的 是 ， 作 者 发 现 从 多 种 关系 提取 
关联 特征 比 简单 添加 更 多 特征 参数 更 具 预 测 性 。 报 告 子 图 部 分 展示 了 如 何 将 图 特征 转换 为 机 
器 学 习 模型 可 用 的 特征 。 通 过 在 图 增强 机 器 学 习 工 作 疲 程 中 组 合 使 用 多 种 方法 ， 作 者 改进 了 
之 前 的 检测 方法 ， 可 对 70% 的 垃圾 邮件 (需要 预先 手动 标记 ) 进行 分 类 ， 准 确 率 达 90%。 


















































如 果 已 经 提取 了 关联 特征 ， 还 可 以 通过 像 PageRank 算法 这 样 的 图 算法 来 改进 训练 ， 以 便 
按照 影响 力 划 分 特征 的 优先 级 。 这 样 做 能 够 充分 表示 数据 ， 同 时 消除 可 能 导致 结果 变 差 或 
处 理 速度 变 慢 的 噪声 变量 。 有 了 这 类 信息 ， 还 可 以 通过 特征 约 简 来 识别 高 共 现 率 的 特征 ， 
以 便 进一步 对 模型 调 优 。Dino Ienco、Rosa Meo 和 Marco Botta 在 论文 “Using PageRank in 
Feature Selection” 中 介绍 了 这 种 方法 。 





前 面 讨 论 了 如 何 将 关联 特征 应 用 于 涉及 欺诈 检测 和 垃圾 邮件 检测 的 场景 。 对 这 些 情况 , 行 
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为 通常 隐藏 在 多 重 迷 雾 和 网 络 关 系 中 。 如 果 没 有 图 承载 的 上 下 文 信息 ， 仅 靠 传 统 的 特征 提 
取 和 选择 方法 ， 可 能 无 法 检测 到 这 些 行为 。 











关联 特征 增强 机 器 学 习 的 另 一 个 领域 (也 是 本 章 后 续 内 容 的 重点 ) 是 链接 预测 (link 
prediction)。 链 接 预 测 可 用 于 估计 未 来 形成 某 种 关系 的 可 能 性 ， 或 者 说 该 关系 可 能 已 经 存在 
于 图 中 ， 只 是 由 于 数据 不 完整 而 丢失 了 。 由 于 网 络 是 动态 的 并 且 可 以 快速 增长 ， 因 此 对 即 
将 添加 的 链接 进行 预测 有 广泛 的 用 途 ， 例 如 产品 推荐 、 药 物 重 定向 ， 其 至 推断 犯罪 关系 等 。 


从 图 中 提取 的 关联 特征 通常 用 于 改进 链接 预测 结果 ， 这 包括 基本 的 图 特征 以 及 通过 中 心 
性 算法 和 社团 发 现 算法 提取 的 特征 。 基 于 节点 接近 度 或 相似 度 的 链接 预测 也 是 标准 方 
法 ，David Liben-Nowell 和 Jon Kleinberg 在 论 文 “The Link Prediction Problem for Social 
Networks” 中 提出 ， 在 发 现 布点 的 接近 度 方面 ， 仅 网 络 结构 本 身 就 可 能 包含 足够 的 次 在 信 
息 ， 而 且 优 于 更 直接 的 度量 方法 。 


通过 关联 特征 增强 机 器 学 习 的 方法 已 介绍 完毕 ， 下 面 深 入 人 研究 链接 预测 示例 ， 看 看 如 何 应 
用 图 算法 来 改进 预测 结果 。 


8.3 图 与 机 器 学 习 实 践 : 链接 预测 


接 下 来 展示 一 个 基于 引文 网 络 数据 集 的 实用 示例 ， 该 数据 集 是 从 DBLP、ACM 和 MAG 
提取 的 研究 数据 集 。 唐 杰 等 人 撰写 的 论文 “ArnetMiner: Extraction and Mining of Academic 
Social Networks” 介 绍 了 该 数据 集 ， 其 最 新 版 本 包含 3 079 007 篇 论文 、1 766 547 位 作者 、 
9 437 718 个 作者 关系 ， 以 及 25 166 994 个 引用 关系 。 


我 们 将 采用 该 数据 集 的 一 个 子 集 ， 基 中 出 现 的 论文 主要 来 自 以 下 出 版 物 : 




































































。 Lecture Notes in Computer Science 
Communications of the ACM 
。 International Conference on Software Engineering 


。 Advances in Computing and Communications 


所 得 数据 集 包 含 51 956 篇 论文 、80 299 位 作者 、140 575 个 作者 关系 ， 以 及 28 706 个 引用 
关系 。 可 以 基于 有 过 论文 合 著 关 系 的 作者 创建 合 著 者 关系 图 ， 然 后 预测 几 对 作者 未 来 有 无 
可 能 合作 。 我 们 只 对 此 前 未 合作 过 的 作者 之 间 可 能 存在 合作 关系 感 兴趣 ， 并 不 关心 一 对 作 
者 之 间 的 多 个 合作 关系 。 


首先 安装 所 需 工 具 并 将 数据 导入 Neo4j ， 然 后 介绍 如 何 正 确 均 衡 数据 ， 将 样本 分 割 为 Spark 
用 于 训练 和 测试 的 DataFrame 对 象 ， 还 将 介绍 我 们 的 假设 和 链接 预测 方法 ， 并 在 Spark 中 
创建 一 个 机 器 学 习 管 道 ， 最 后 示范 如 何 训练 和 评估 各 种 预测 模型 ， 起 初 采用 基本 的 图 特 
征 ， 之 后 添加 更 多 使 用 Neo4j 提取 的 图 算法 特征 。 























8.3.1 工具 和 数据 


首先 安装 工具 并 导入 数据 ， 然 后 探查 数据 集 并 创建 一 个 机 器 学 习 管 道 。 
小 其 他 工作 之 前 ， 先 安装 要 用 到 的 库 。 





口 py2neo 
一 个 与 Python 数据 科学 生态 系统 很 好 集成 的 Neo4j Python 库 。 


口 pandas 
一 个 用 于 整理 数据 库 外 部 数据 的 高 性 能 库 ， 具 有 易 用 的 数据 结构 和 数据 分 析 工 具 。 




















口 Spark MLlib 
Spark 的 机 器 学 习 库 。 





我 们 使 用 MLlib 作为 机 器 学 习 库 的 示例 。 本 章 所 示 方 法 可 与 其 他 机 器 学 习 库 
(如 scikit-learn) 联 用 。 








所 有 代码 都 将 在 PySpark REPL 中 运行 。 可 以 通过 以 下 命令 启动 REPL : 


export SPARK_VERSION="spark-2.4.0-bin-hadoop2.7" 
./${SPARK_VERSION}/bin/pyspark \ 

--driver-memory 2g \ 

--executor-memory 6g9 \ 

--packages julioasotodv:spark-tree-plotting:0.2 


这 与 第 3 章 使 用 的 REPL 启动 命令 类 似 ， 只 是 没有 加 载 GraphFrames 库 ， 而 是 加 载 了 spark- 
tree-plotting 包 。 在 编写 本 书 之 时 ，Spark 的 最 新 发 布 版 本 是 spark-2.4.0-bin-hadoop2.7。 当 
你 阅读 本 书 时 ， 版 本 可 能 已 经 发 生变 化 ， 若 是 如 此 ， 请 确保 正确 更 改 SPARK_VERSION 环境 


县 
变量 。 





启动 REPL 后 ， 可 以 导入 要 用 到 的 库 ， 如 下 所 示 : 


from py2neo import Graph 
import pandas as pd 
from numpy.random import randint 


from pyspark.mL import Pipeline 

from pyspark.ml.classification import RandomForestClassifier 
from pyspark.ml.feature import StringIndexer, VectorAssembler 
from pyspark.ml.evaluation import BinaryClassificationEvaluator 


from pyspark.sql.types import * 
from pyspark.sql import functions as F 
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from sklearn.metrics import roc_curve, auc 
from collections import Counter 


from cycler import cycler 
import matpLotLib 
matplotlib.use('TkAgg') 

import matplotlib.pyplot as plt 


然后 创建 到 Neo4j 数据 库 的 连接 。 





graph = Graph("bolt://\localhost:7687", auth=("neo4j", "neo")) 


8.3.2 ”将 数据 导入 Neo4j 
下 面 将 数据 加 载 到 Neo4j 中 ， 同 时 均衡 分 割 训练 数据 和 测试 数据 。 需 要 下 载 该 数据 集 第 10 
个 版 本 的 ZIP 文件 ， 解 压 并 将 其 中 内 容 放 入 import 文件 夹 中 。 现 有 以 下 文件 : 








。 dblp-ref-0.json 
。 dblp-ref-1.json 
。 dblp-ref-2.json 
。 dblp-ref-3.json 


有 了 import 文件 夹 中 的 这 些 文件 ， 还 需要 在 Neo4j 配置 文件 中 加 入 下 述 性 质 ， 以 便 使 用 
APOC 库 来 处 理 数据 。 








apoc.import.file.enabled=true 
apoc.import.file.use_ neo4j]_config=true 


首先 创建 约束 以 确保 论文 或 作者 不 会 重复 : 


CREATE CONSTRAINT ON (article:Article) 
ASSERT article.index IS UNIQUE; 


CREATE CONSTRAINT ON (author:Author) 
ASSERT author.name IS UNIQUE; 


然后 执行 下 述 查询 ， 从 JSON 文件 中 导入 数据 : 


CALL apoc.periodic.iterate( 
'UNWIND ["dblp-ref-0.json","dblp-ref-1.json", 
"dblp-ref-2.json","dblp-ref-3.json"] AS file 

CALL apoc.load.json("file:///" + file) 

YIELD value 

WHERE value.venue IN ["Lecture Notes in Computer Science", 
"Communications of The ACM", 
"international conference on software engineering", 
"advances in computing and communications"] 

return value', 

'MERGE (a:Article {index:value.id}) 





ON CREATE SET a += apoc.map.clean(value,["id","authors","references"],[0]) 
WITH a,value.authors as authors 
UNWIND authors as author 
MERGE (b:Author{name:author}) 
MERGE (b)<-[:AUTHOR]-(a)， 
， {batchSize: 10000, iterateList: true}); 


这 段 代 码 将 产生 图 8-4 所 示 的 图 模式 。 











AUTHOR 











图 8-4: 引用 图 


由 于 连接 论文 和 作者 的 图 还 比较 简单 ， 因 此 要 添加 更 多 从 关系 中 推 晰 出 的 信息 来 辅助 预测 。 


8.3.3” 合 著者 关系 图 
要 预测 作者 之 间 未 来 的 合作 ， 首 先 要 创建 合 著者 关系 图 。 下 面 的 Neo4j Cypher 查询 将 为 合 
著 论文 的 每 对 作者 创建 Co_AUTHOR 关系 。 














MATCH (al)<-[:AUTHOR]-(paper)-[:AUTHOR]->(a2:Author) 

WITH al, a2, paper 

ORDER BY al1，paper.year 

WITH al1，a2，CcoLLect(paper)[0].year AS year, count(*) AS collaborations 


MERGE (a1)- 


[coauthor:CO_AUTHOR {year: year}]-(a2) 


SET coauthor.collaborations = collaborations; 


我 们 在 查询 中 设置 C0_AUTHOR 关系 的 year 性 质 ， 它 表示 这 两 位 作者 最 初 合作 的 年 份 。 我 们 
只 对 两 位 作者 的 首次 合作 感 兴趣 ， 而 暂时 不 关心 后 续 合 作 。 





图 8-5 是 所 创建 








图 的 一 部 分 示例 ， 它 显示 出 一 些 有 意思 的 社团 结构 。 图 中 的 每 个 圆 表示 一 











位 作者 ， 圆 之 间 的 连 线 表 示 CO_AUTHOR 关系 ， 因 此 图 的 左边 是 4 位 相互 有 合作 关系 的 作者 ， 
而 右边 的 两 个 例子 分 别 描述 了 3 位 作者 之 间 的 合作 关系 。 加 载 完 数 据 和 基本 图 后 ， 开 始 创 





建 用 于 训练 和 测试 的 两 个 数据 集 。 
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图 8-5: 合 著者 关系 图 


8.3.4 创建 均衡 的 训练 数据 集 和 测试 数据 集 

链接 预测 问题 旨 在 尝试 并 预测 未 来 的 链接 创建 。 访 数据 集 适 用 于 这 项 工作 ， 这 是 因为 可 以 
根据 论文 的 日 期 来 分 割 数据 。 需 要 判定 该 用 哪 一 年 来 确定 训练 与 测试 的 分 割 点 ， 用 那 一 年 
之 前 的 数据 对 模型 进行 全 方位 训练 ， 用 那 一 年 之 后 的 数据 测试 所 创建 的 链接 。 














先 看 看 这 些 论文 发 表 的 时 间 。 可 以 编写 以 下 查询 按 年 份 分 组 论文 并 统计 数量 : 


query = """ 

MATCH (article:Article) 

RETURN article.year AS year, count(*) AS count 
ORDER BY year 


by_year = graph.run(query).to_data frame() 
通过 条 形 图 来 可 视 化 查询 结果 ， 代 码 如 下 : 


plt.style.use('fivethirtyeight') 

ax = by_year.plot(kind='bar', x='year', y='count', legend=None, figsize=(15,8)) 
ax.xaxis.set label_ text("") 

plt.tight_layout() 

plt.show() 








运行 代码 ， 可 以 得 到 如 图 8-6 所 示 的 条 形 图 。 














图 8-6: 按 年 份 统计 论文 


1997 年 之 前 发 表 的 论文 很 少 ，2001 年 至 2006 年 发 表 的 论文 很 多 。 在 2011 年 之 前 的 几 年 ， 
论文 数量 有 一 些 下 降 ， 此 后 又 逐渐 上 升 (不 包括 2013 年 )。 看 来 2006 年 不 错 ， 可 以 据 此 
分 割 数据 以 训练 模型 并 做 出 预测 。 来 看 看 2006 年 之 前 发 表 的 论文 数量 ， 以 及 该 年 度 和 之 
后 发 表 的 论文 数量 。 通 过 下 述 查 询 进 行 计算 : 

MATCH (article:Article) 

RETURN article.year < 2006 AS training, count(*) AS count 

















结果 如 下 所 示 ， 其 中 true 表示 论文 发 表 于 2006 年 之 前 。 





training count 
false 21059 
true 30897 

















结果 不 错 ! 60% 的 论文 是 在 2006 年 之 前 发 表 的 ， 而 2006 年 及 之 后 发 表 的 论文 占 40%。 这 
对 训练 和 测试 而 言 是 相当 均衡 的 数据 分 割 了 。 


同样 ， 使 用 2006 年 来 分 割 作者 合作 关系 。 为 首次 合作 发 生 在 2006 年 之 前 的 每 对 作者 创建 
CO_AUTHOR_EARLY 关系 。 


MATCH (al)<-[:AUTHOR]-(paper)-[:AUTHOR]->(a2:Author) 

WITH al, a2, paper 

ORDER BY al, paper.year 

WITH a1i, a2, collect(paper)[0].year AS year, count(*) AS collaborations 
WHERE year < 2006 
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MERGE (a1)-[coauthor:CO_AUTHOR_EARLY {year: year}]-(a2) 
SET coauthor.collaborations = collaborations; 


然后 为 首次 合作 发 生 在 2006 年 及 之 后 的 每 对 作者 创建 C0_AUTHOR_LATE 关系 。 





MATCH (al)<-[:AUTHOR]-(paper)-[:AUTHOR]->(a2:Author) 

WITH ai, a2, paper 

ORDER BY al1，paper.year 

WITH a1i, a2, collect(paper)[0].year AS year, count(*) AS collaborations 
WHERE year >= 2006 

MERGE (a1)-[coauthor:CO_AUTHOR_LATE {year: year}]-(a2) 

SET coauthor.collaborations = collaborations; 





在 构建 训练 集 和 测试 集 之 前 ， 先 核对 存在 链接 关系 的 节点 对 数量 。 下 述 查 询 将 返回 存在 
CO_AUTHOR_EARLY 关系 的 节点 对 数量 。 


MATCH ()-[:CO_AUTHOR_EARLY]->() 
RETURN count(*) AS count 


执行 该 查询 ， 结 果 如 下 所 示 : 


count 


81096 


以 下 查询 将 查找 存在 CO_AUTHOR_LATE 关系 的 节点 对 数量 。 











器 





MATCH ()-[:CO_AUTHOR_LATE]->() 
RETURN count(*) AS count 


执行 该 查询 ， 结 果 如 下 所 示 : 


count 


74128 
下 面 准备 构建 训练 数据 集 和 测试 数据 集 。 


均衡 分 割 数据 

具有 C0O_AUTHOR_EARLY 关系 和 C0_AUTHOR_LATE 关系 的 节点 对 可 以 作为 正 例 ， 还 需要 创建 一 
些 反 例 。 现 实 世 界 中 的 大 多 数 网 络 是 稀 足 的 ， 关 系 相 对 集中 ， 这 张 图 也 并 无 不 同 。 两 个 市 
点 间 没 有 关系 的 示例 数量 远 远 多 于 有 关系 的 示例 数量 。 


如 果 查 询 C0_AUTHOR_EARLY 数据 ， 会 发 现 45 018 位 作者 具有 这 种 关系 ， 但 是 这 些 作者 之 间 
只 有 81 096 个 关系 。 上 听 起 来 可 能 并 没有 那么 不 均衡 ， 但 实际 上 确实 如 此 : 我 们 的 图 可 能 
有 的 最 大 关系 数 是 (45 018 x 45 017) / 2 = 1 013 287 653 ， 这 意味 着 有 很 多 反例 (没有 链接 
的 情况 )。 如 果 使 用 所 有 反例 来 训练 模型 ， 会 出 现 严 重 的 类 别 失 衡 问 题 。 通 过 预测 每 对 节 
点 间 不 存在 关系 ， 模 型 可 以 达到 极 高 的 准确 度 。 











Ryan Lichtenwalter、Jake Lussier 和 Nitesh Chawla 在 论文 “New Perspectives and Methods in 
Link Prediction” 中 介绍 了 应 对 这 一 挑战 的 几 种 方法 。 其 中 一 种 方法 是 在 邻 域 中 寻找 目前 尚 
未 连接 的 节点 以 构建 反例 。 


我 们 通过 寻找 彼此 距离 两 三 跳 的 市 点 对 来 构建 反例 ， 这 不 包括 那些 已 经 存在 关系 的 市 点 
对 。 然 后 ， 对 这 些 市 点 对 进行 下 采样 ， 从 而 得 到 相同 数量 的 正 例 和 反例 。 











彼此 相距 2 跳 且 不 存在 关系 的 节点 对 共有 314 248 个 。 如 果 将 距离 增加 到 3 
跳 ， 则 有 967 677 个 节点 对 。 








可 用 以 下 函数 来 下 采样 反例 : 


def down_sample(df): 
copy = df.copy() 
zero = Counter(copy.label.values)[0] 
un = Counter(copy.label.values)[1] 
n = zero - un 
copy = copy.drop(copy[copy.label == 0].sample(n=n, random_ state=1).index) 
return copy.sample(frac=1) 





该 函数 计算 正 例 和 反例 数目 之 差 ， 然后 抽样 反例 ， 使 正 反 例 的 数目 相等 。 可 以 运行 以 下 代 
码 来 构建 一 个 正 例 和 反例 均衡 的 训练 集 。 





train existing_links = graph.run(""" 

MATCH (author:Author)-[:CO_AUTHOR_EARLY]->(other:Author) 
RETURN id(author) AS node1, id(other) AS node?2, 1 AS label 
""").to_data_frame() 

train missing_links = graph.run(""" 

MATCH (author:Author) 

WHERE (author)-[:CO_AUTHOR_EARLY]-() 

MATCH (author)-[:CO_AUTHOR_EARLY*2..3]-(other) 

WHERE not((author)-[:CO_AUTHOR_EARLY]-(other)) 

RETURN id(author) AS node1, id(other) AS node2, 0 AS label 
""").to_data_frame() 


train missing_ links = train missing_links.drop_duplicates() 

training_df = train missing_links.append(train existing_ links, ignore_index=True) 
training_df['label'] = training_df['label'].astype('category') 

training_df = down_sample(training_df) 

training_data = spark.createDataFrame(training_df) 

















现在 已 经 强制 将 Labet 列 作 为 一 个 类 别 了 ， 其 中 ，1 代表 节点 对 之 间 存在 链接 ， 而 9 代表 市 
点 对 之 间 没 有 链接 。 运 行 以 下 代码 可 以 在 DataFrame 对 象 中 观察 这 些 数据 ， 结 果 如 下 所 示 : 

















training_data.show(n=5) 
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node1 node2 label 





10019 28091 1 
10170 51476 


1 
10259 17140 0 
10259 26047 1 

下 


10293 71349 














该 结果 显示 了 一 个 市 点 对 列表 以 及 市 点 间 是 否 存在 合 闭关 系 。 例 如 节点 10019 和 28991 的 
label 值 为 1， 这 表示 二 者 之 间 存 在 合 车 关系 。 











运行 以 下 代码 来 检查 DataFrame 对 象 的 内 容 : 


training_data.groupby("label").count().show() 


结果 如 下 所 示 : 
label count 
0 81096 
L 81096 


已 经 创建 了 正 例 和 反例 数目 相同 的 训练 集 ， 下 面 以 同样 的 方式 构建 测试 集 。 以 下 代码 将 构 
建 一 个 正 例 和 反例 均衡 的 测试 集 。 





test_existing_links = graph.run(""" 

MATCH (author:Author)-[:CO_AUTHOR_LATE]->(other:Author) 
RETURN id(author) AS node1, id(other) AS node2, 1 AS label 
""").to data_frame() 
test_missing_links = graph.run(""" 

MATCH (author:Author) 

WHERE (author)-[:CO_AUTHOR_LATE]-() 

MATCH (author)-[:CO_AUTHOR*2..3]-(other) 

WHERE not((author)-[:CO_AUTHOR]-(other)) 

RETURN id(author) AS node1, id(other) AS node2，0 AS label 
""").to data_frame() 


test_missing_ links = test missing_ links.drop_duplicates() 

test_df = test missing_ links.append(test existing_ links, ignore_index=True) 
test_df['label'] = test df['label'].astype('category') 

test_df = down_sampLe(test_df) 

test_data = spark.createDataFrame(test_df) 


运行 以 下 代码 来 检查 DataFrame 对 象 的 内 容 : 


test_data.groupby("label").count().show() 
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label count 
0 74128 
1 74128 


有 了 均衡 的 训练 数据 集 和 测试 数据 集 ， 下 面 开 始 研 究 预测 链接 的 方法 。 


8.3.5 如何 预测 缺失 链接 

从 一 些 基 本 假设 开始 ， 即 数据 中 的 哪些 元 素 可 以 预测 两 位 作者 以 后 是 否 会 成 为 合 音 者 。 假 
设 因 领 域 和 问题 而 异 ， 但 在 本 例 中 ， 最 其 预测 性 的 特征 与 社团 有 关 。 刚 开始 假设 下 述 要 素 
可 增加 作者 成 为 合 著者 的 可 能 | 


。 有 较 多 的 共同 作者 ， 

。 作者 之 间 存 在 潜在 的 三 元 关系 ，; 
E 者 有 较 多 关系 ; 

FE 者 都 在 同一 社团 ; 

FE 者 都 在 同一 联系 较 紧密 的 社团 。 


我 们 将 基于 上 述 假设 构建 图 特征 ， 并 使 用 这 些 特 征 来 训练 二 元 分 类 器 。 二 元 分 类 是 机 器 学 
习 的 一 种 ， 其 任务 是 根据 规则 预测 一 个 元 素 属 于 两 个 预定 义 群 组 中 的 哪 一 个 。 我 们 使 用 分 
类 器 基于 分 类 规则 预测 一 对 作者 之 间 是 否 有 链接 。 对 于 本 例 ， 值 1 表示 有 链接 (有 合 著 关 
系 )， 值 9 表示 没有 链接 (无 合 著 关系 )。 


在 Spark 中 可 以 用 随机 森林 来 实现 二 元 分 类 器 。 随 机 森林 (random forest) 是 一 种 用 于 分 
类 、 回 归 和 其 他 任务 的 集成 学 习 方法 ， 如 图 8-7 所 示 。 
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图 8-7: 随机 森林 构建 了 一 个 决策 树 集合 ， 然 后 依据 多 数 投票 (分 类 问题 ) 或 平均 值 (回归 问题 ) 得 
出 结果 
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随机 森林 分 类 器 从 训练 好 的 多 棵 决策 树 中 提取 结果 ， 然 后 通过 投票 来 预测 分 类 
中 ， 无 论 是 否 存 在 链接 ( 合 著 关 系 )， 都 是 如 此 。 


下 面 创建 工作 流程 。 





在 本 例 


8.3.6 创建 机 器 学 习 管 道 

我 们 将 在 Spark 中 创建 基于 随机 森林 分 类 器 的 机 器 学 习 管道 。 由 于 所 用 数据 集 由 强 特征 和 
弦 特 征 混合 构成 ， 因 此 这 种 方法 非常 适用 。 弱 特征 有 时 很 有 用 ， 随 机 森林 方法 所 创建 的 模 
型 并 非 仅 适用 于 这 里 的 训练 数据 。 











要 创建 机 器 学 习 管 道 ， 可 用 fields 变量 传递 特征 列表 (分 类 器 会 用 到 )。 分 类 器 用 名 为 
features 的 列 来 单独 接收 这 些 特征 参数 ， 因 此 还 要 使 用 VectorAssembler 将 数据 转换 成 所 
需 格式 。 


以 下 代码 创建 了 一 个 机 器 学 习 管 道 ， 并 且 使 用 MLlib 设置 参数 : 











def create pipeline(fields): 
assembler = VectorAssembler(inputCols=fields, outputCol="features") 
rf = RandomForestClassifier(labelCol="label", featuresCol="features", 
numTrees=30, maxDepth=10) 
return Pipeline(stages=[assembler, rf]) 


RandomForestClassifier 国 数 用 到 了 下 述 参 数 。 


口 labelCol 
包含 待 预测 变量 的 字段 名 ， 这 里 指 一 对 节点 是 否 存在 链接 。 
口 featuresCol 

字段 名 ， 包 含 用 于 预测 一 对 节点 是 否 存在 链接 的 变量 。 





DQ numTrees 


构成 随机 森林 的 决策 树 的 数量 。 








口 maxDepth 
决策 树 的 最 大 深度 。 


我 们 基于 实验 来 选择 决策 树 的 数量 和 深度 。 可 以 考虑 采用 超 参 数 ， 如 可 对 算法 进行 性 能 调 
优 的 设置 。 优 良 的 超 参 数 通常 很 难 预先 确定 ， 调 整 模 型 通常 需要 经 历 一 些 试 错 。 


介绍 过 了 基础 知识 并 创建 了 管道 ， 下 面 开 始 创建 模型 并 评估 其 表现 。 




















8.3.7 ea 基本 图 特征 


我 们 将 从 创建 简单 模型 开始 ， 基 于 从 共同 作者 、 择 优 连 接 和 邻 节 点 并 集 总 数 提取 的 特征 ， 





pe de 
共同 作者 


















































来 可 能 会 被 相互 引见 并 开展 协作 。 
口 择优 连接 





查找 两 位 作者 之 间 的 潜在 三 角形 数 。 这 主要 基于 这 样 的 理念 : 有 共同 作者 的 两 位 作者 将 


























将 每 对 作者 的 合 著者 数量 相 乘 ， 为 每 对 作者 生成 一 个 分 值 。 按 照常 理 ， 
能 与 已 经 合 著 了 大 量 论文 的 人 合作 。 


口 邻 节点 并 集 总 数 
找到 每 位 作者 的 合 著者 总 数 ， 然 后 减 去 重复 数 。 









































位 作者 更 有 可 





在 Neo4j 中 ， 可 以 使 用 Cypher 查询 来 计算 这 些 值 。 下 面 的 函数 将 计算 这 些 针对 训练 集 的 度 











量 指标 : 


def apply_graphy_training_features(data): 
query = """ 
UNWIND S$pairs AS pair 
MATCH (p1) WHERE id(p1) = pair.nodel 
MATCH (p2) WHERE id(p2) = pair.node2 
RETURN pair.nodel AS nodel, 
pair.node2 AS node2， 
size([(p1)-[:CO_AUTHOR_EARLY]-(a)- 


[ :CO_AUTHOR_EARLY]-(p2) | a]) AS commonAuthors, 


size((p1)-[:CO_AUTHOR_EARLY]-()) * size((p2)- 
[:CO_AUTHOR_EARLY]-()) AS prefAttachment, 
size(apoc.coll.toSet( 
[(p1)-[:CO_AUTHOR_EARLY]-(a) | id(a)] + 
[(p2)-[:CO_AUTHOR_EARLY]-(a) | id(a)] 
)) AS totalNeighbors 
pairs = [{"node1": row["node1"], "node2": row["node2"]} 
for row in data.collect()] 
features = spark.createDataFrame(graph.run(query, 
{"pairs": pairs}).to_data_ frame()) 
return data.join(features, ["node1", "node2"]) 


下 面 的 函数 将 针对 测试 集 来 计算 这 些 值 : 


def apply_graphy_test_features(data): 
query = """ 
UNWIND S$pairs AS pair 
MATCH (p1) WHERE id(p1) = pair.nodel 
MATCH (p2) WHERE id(p2) = pair.node2 
RETURN pair.nodel AS nodel, 
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pair.node2 AS node2， 
size([(p1)-[:CO_AUTHOR]-(a)-[:CO_AUTHOR]-(p2) | a]) AS commonAuthors ， 
size((p1)-[:CO_AUTHOR]-()) * size((p2)-[:CO_AUTHOR]-()) 
AS prefAttachment, 
size(apoc.coll.toSet( 
[(p1)-[:CO_AUTHOR]-(a) | id(a)] + [(p2)-[:CO_AUTHOR]-(a) | id(a)] 
)) AS totalNeighbors 
pairs = [{"node1": row["node1"], "node2": row["node2"]} 
for row in data.collect()] 
features = spark.createDataFrame(graph.run(query, 
{"pairs": patrs}).to_data_frame()) 
return data.join(features, ["node1", "node2"]) 


这 两 个 函数 都 以 DataFrame 对 象 为 参数 ， 该 对 象 包含 nodel 列 和 node2 列 中 的 节点 对 ， 然 
后 构建 包含 这 些 节点 对 的 映射 数组 ， 并 为 每 对 节点 计算 各 种 度量 指标 。 














在 本 章 中 ，UNWIND 子 句 对 于 获取 大 规模 节点 对 集合 并 在 查询 中 返回 其 所 有 特 
征 非常 有 用 。 














以 下 代码 可 以 把 Spark 中 的 函数 应 用 于 训练 集 DataFrame 对 象 和 测试 集 DataFrame 对 象 : 


training_data = apply_graphy_training_features(training_data) 
test_data = apply_graphy_test features(test data) 


探查 一 下 训练 集中 的 数据 。 以 下 代码 绘制 了 关于 commonAuthors 出 现 频率 的 条 形 图 ， 如 图 8-8 
所 示 : 





plt.style.use('fivethirtyeight') 
fig, axs = plt.subplots(1, 2, figsize=(18, 7), sharey=True) 
charts = [(1, "have collaborated"), (0, "haven't collaborated")] 


for index, chart in enumerate(charts): 
label, title = chart 
filtered = training_ data.filter(training data["label"] == label) 
common_authors = filtered.toPpandas()["commonAuthors"] 
histogram = common_authors.value counts().sort_index() 
histogram /= float(histogram.sum()) 
histogram.plot(kind="bar", x='Common Authors', color="darkblue", 
ax=axs[index], title=f"Authors who {title} (label={label})") 
axs[index].xaxis.set label_text("Common Authors") 


plt.tight_layout() 
plt.show() 
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8-8: commonAuthors 出 现 频 率 


左边 是 当 作 者 之 间 有 过 合作 时 commonAuthors 的 频率 ， 右 边 是 作者 之 间 没 合作 过 时 commonAuthors 
的 频率 。 对 于 那些 没有 合作 过 的 作者 (图 8-8 右 侧 )， 最 大 共同 作者 数 是 9， 但 是 95% 的 
人 的 值 是 1 或 0。 在 没有 合 著 过 论文 的 人 当中 ， 共 同 作者 数 基本 也 不 多 ， 这 并 不 奇怪 。 对 
于 那些 合作 过 的 人 (图 8-8 左 侧 )，70% 的 人 共同 合作 者 少 于 5 位 ， 有 一 两 位 合作 者 的 人 
最 多 。 








现在 训练 模型 来 预测 缺失 链接 。 下 面 的 函数 可 完成 该 操作 : 











def train model(fields, training_data): 
pipeline = create_ pipeline(fields) 
model = pipeline.fit(training_data) 
return model 


刚 开 始 创 建 一 个 仅 采 用 commonAuthors 的 基本 模型 ， 代 码 如 下 : 


basic model = train model(["commonAuthors"], training_data) 














模型 训练 完毕 后 ， 看 看 该 模型 针对 虚拟 数据 的 表现 。 下 面 的 代码 针对 不 同 的 commonAuthors 
取 值 求解 预测 值 : 


eval_df = spark.createDataFrame( 


[(90;,); (1;)s C23)3 (0 5 (100 , )] ， 


['commonAuthors']) 


(basic model.transform(eval_df) 
.Select("commonAuthors", "probability", "prediction") 
.Show(truncate=False)) 

















运行 以 上 代码 ， 结 果 如 下 所 示 : 
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CommonAuthors probability prediction 





0 [0.7540494940434322,0.24595050595656787] 0.0 
1 [0.7540494940434322,0.24595050595656787] 0.0 
2 [0.0536835525078107,0.9463164474921892] 1.0 
10 [0.0536835525078107,0.9463164474921892] 1s0 


如 果 commonAuthors 值 小 于 2， 则 作者 之 间 没 有 合作 关系 的 概率 为 75%， 所 以 模型 预测 值 
为 0。 如 果 commonAuthors 值 大 于 或 等 于 2， 则 作者 之 间 有 合作 关系 的 概率 为 94%， 所 以 模 
型 预测 值 为 1。 


下 面 使 用 测试 集 来 评估 模型 。 尽 管 评估 模型 运行 情况 的 方法 有 多 种 ， 但 是 大 多 数 方法 源 自 
一 些 基 准 预测 指标 ， 如 表 8-1 所 示 。 





























表 8-1: 预测 指标 














指 标 公式 描述 
准确 率 正 例 数 + 负 例 数 模型 正确 预测 的 分 值 ， 或 者 说 正确 预测 数 除 以 预测 总 数 。 
预测 总 数 请 注意 ， 这 样 的 准确 率 本 身 就 可 能 产生 误导 ， 当 数据 不 











均衡 时 万 其。 如 果 有 一 个 数据 集 包 含 95 只 猫 和 5 只 狗 ， 
那么 当 模 型 预测 每 幅 图 像 都 是 猫 时 ， 尽 管 一 只 狗 都 没有 
正确 识别 出 来 ， 但 准确 率 仍 达 95% 
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精确 率 正 例 数 E 确 识别 正 例 的 比例 。 较 低 的 精确 率 表明 出 现 较 多 假 正 
正 例 数 十 假 正 例 数 例 。 模 型 未 出 现 假 正 例 则 精确 率 为 100% 

召回 率 〈 正 例 率 ) 正 例 数 实际 正确 识别 正 例 的 比例 。 较 低 的 召回 率 表 示 假 负 例 较 
正 例 数 + 假 负 例 数 多 。 模 型 没有 产生 假 负 例 则 其 召回 率 为 100% 

假 正 例 率 假 正 例 数 识别 不 正确 正 例 的 比例 。 较 高 分 值 表 示 有 较 多 的 假 正 例 
假 正 例 数 + 负 例 数 

受 试 者 工作 特征 了 图 表 ROC 曲线 是 召回 率 ( 正 例 率 ) 与 假 正 例 率 在 不 同 分 类 阔 

曲线 (ROC 曲线 值 上 的 曲线 。 曲 线 下 的 面积 (AUC) 表示 ROC 曲线 下 从 

蕊 了 7 轴 (0,0) 到 (1,1) 的 面积 

















我 们 将 使 用 准确 率 、 精 确 率 、 召 回 率 和 ROC 曲线 来 评估 模型 。 准 确 率 是 一 个 粗略 指标 ， 
因此 重点 是 要 提高 整体 精确 率 和 召回 率 。 我 们 将 使 用 ROC 曲线 来 比较 单个 特征 对 预测 率 
的 影响 。 

















目标 不 同 ， 可 能 希望 采取 的 指标 也 不 同 ， 例 如 可 能 希望 消除 疾病 指标 的 所 有 
假 负 例 ， 但 并 不 希望 所 有 预测 都 是 阳性 结果 。 我 们 可 能 会 为 不 同 模型 设置 多 
个 国 值 ， 将 结果 传递 给 二 次 检查 ， 看 是 否 可 能 出 现 假 性 结果 。 

降低 分 类 国 值 会 导致 更 全 面 的 阳性 结果 ， 同 时 增加 假 正 例 和 正 例 。 








可 使 用 以 下 函数 来 计算 这 些 预 测 指标 : 





def 


然后 编写 函 


def 


用 以 下 代 


basi 


evaluate model(model, test data): 
# 针对 测试 集运 行 模型 


predictions = model.transform(test_data) 


# 计算 正 例 数 、 假 正 例 数 以 及 假 负 例 数 


tp = predictions[(predictions.label == 1) & 


(predictions.prediction == 1)].count() 
fp = predictions[(predictions.label == 0) & 

(predictions.prediction == 1)].count() 
fn = predictions[(predictions.label == 1) & 

(predictions.prediction == 0)].count() 


# 手动 计算 召回 率 和 精确 率 
recall = float(tp) / (tp + fn) 
precision = float(tp) / (tp + fp) 








# 使 用 Spark MLLib 的 二 元 分 类 求解 程序 计算 准确 率 


accuracy = BinaryClassificationEvaluator().evaluate(predictions) 


# 使 用 scikit-learn 中 的 函数 计算 假 正 例 率 和 正 例 率 

labels = [row["label"] for row in predictions.select("label").collect()] 

preds = [row["probability"][1] for row in predictions.select 
("probability").collect()] 

fpr, tpr, threshold = roc_curve(labels, preds) 

roc_auc = auc(fpr, tpr) 





return { "fpr": fpr, "tpr": tpr, "roc_auyc": roc_auc, "accuracy": accuracy, 
"recall": recall, "precision": precision } 


数 来 以 易 用 的 格式 展现 结果 : 


display_results(results): 

results = {k: v for k, v in results.items() if k not in 
[fpe”; Er "roc_auc"]} 

return pd.DataFrame({"Measure": list(results.keys()), 
"Score": list(results.values())}) 


码 调用 该 函数 并 且 显 示 结 果 : 


c_results = evaluate model(basic model, test _ data) 




















display_results(basic _ results) 
共同 作者 模型 的 预测 指标 如 下 所 示 : 
accuracy 0.864457 
recall 0.753278 
precision 0.968670 
效果 不 错 ， 因 en 于 作者 对 中 的 共同 作者 的 数量 ， 然而， 如 果 综 合 考 
虑 多 个 指标 ， 就 会 看 得 更 清楚 。 例 如 该 模型 的 精确 率 为 0.968670， 这 意味 着 它 很 好 地 预测 


了 链接 的 存在 ， 然而 其 召回 率 为 9.753278， 这 意味 着 它 并 不 擅长 预测 链接 不 存在 的 情况 
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可 以 用 以 下 函数 绘制 ROC 曲线 〈 正 例 与 假 正 例 的 相关 性 ) : 


def create_roc_ptLot() : 

plt.style.use('classic') 

fig = plt.figure(figsize=(13, 8)) 

plt.xlim([0, 1]) 

plt.ylim([0, 1]) 

plt.ylabel('True Positive Rate') 

plt.xlabel('False Positive Rate') 

plt.rc('axes', prop_cycle=(cycler('color', 
['r', 'g', 'b', 'c', 'm'’, 'y', 'k']))) 

plt.plot([0, 1], [0, 1], linestyle='--', label='Random score 
(AUC = 0.50)') 

return plt, fig 


def add curve(plt, title, fpr, tpr, roc): 
plt.plot(fpr, tpr, label=f"{title} (AUC = {roc:0.2})") 
可 按 如 下 方式 调用 该 函数 : 
plt, fig = create _roc_plot() 


add_curve(plt, "Common Authors", 
basic_results["fpr"], basic _ results["tpr"], basic results["roc_auc"]) 


plt.legend(loc=' lower right') 
plt.show() 


图 8-9 展示 了 基本 模型 的 ROC 曲线 。 共 同 作者 模型 的 曲线 下 面积 (AUC) 分 值 为 0.86。 
虽然 这 是 一 个 全 面 的 预测 指标 ,但 是 需要 用 图 表 (或 其 他 指标 ) 来 评估 是 否 符合 预期 目 
标 。 图 8-9 显示 ， 当 正 例 率 (召回 率 ) 接近 80% 时 ， 假 正 例 率 达 到 20% 左右 。 这 对 于 其 
诈 检 测 这 样 的 场景 可 能 会 有 问题 ， 因 为 追踪 假 正 例 的 代价 很 大 。 
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8-9: 基本 模型 的 ROC 曲线 
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下 面 使 用 其 他 图 特征 来 改进 预测 结果 。 在 训练 模型 之 前 ， 先 看 看 数据 的 分 布 情况 。 可 以 运 
行 以 下 代码 来 显示 每 种 图 特征 的 描述 性 统计 数据 : 














(training data.filter(training_data["label"]==1) 
.describe() 
.select("summary", "commonAuthors", "prefAttachment", "totalNeighbors") 
.Show()) 


(training data.filter(training_data["label"]==0) 
.describe() 
.Select("summary", "commonAuthors", "prefAttachment", "totalNeighbors") 
.Show()) 

















运行 这 段 代码 ， 结 果 如 下 所 示 : 








summary commonAuthors prefAttachment totalNeighbors 
count 81096 81096 81096 

mean 3.5959233501035808 69.93537289138798 10.082408503502021 
stddev 4.715942231635516 171.47092255919472 8.44109970920685 
min 0 册 2 

max 44 3150 90 

Summary CommonAuthors prefAttachment totalNeighbors 
count 81096 81096 81096 

mean 0.37666469369635985 48.18137762651672 12.97586810693499 
stddev 0.6194576095461857 94.92635344980489 10.082991078685803 
min 0 1 1 

max 9 1849 89 


链接 (有 合 著 关系 ) 和 无 链接 (无 合 著 关系 ) 之 间 有 较 大 区 别 的 特征 可 能 更 具 预 测 性 ， 这 
是 因为 其 差异 更 大 。 与 没有 合作 过 的 作者 相 比 ， 合 作 过 的 作者 的 prefAttachment 平均 值 更 
高 。 对 于 commonAuthors 来 说 ， 这 种 差异 甚至 更 显著 。 可 以 看 到 totalNeighbors 的 值 没 有 
太 大 差异 ， 这 可 能 意味 着 该 特征 的 预测 性 不 强 。 同 样 值得 关注 的 是 较 大 的 标准 偏差 以 及 择 
优 连 接 的 最 小 值 和 最 大 值 。 这 正 是 我 们 所 期 望 的 聚焦 中 心 《有 “超级 连接 者 ") 的 小 世界 
网 络 。 














运行 以 下 代码 来 训练 新 模型 ， 添 加 择优 连接 和 邻 广 点 并 集 总 数 两 个 特征 : 


fields = ["commonAuthors", "prefAttachment", "totalNeighbors"] 
graphy_model = train model(fields, training_data) 


然后 求解 模型 并 展示 结果 : 





graphy_results = evaluate model(graphy_model, test_data) 
display_results(graphy_results) 
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该 图 模型 的 预测 指标 如 下 所 示 : 





measure score 

accuracy 0.978351 
recall 0.924226 
precision 0.943795 


准确 率 和 召回 率 有 较 大 提高 ， 但 是 精确 率 略 有 降低 ， 仍 然 会 将 8% 的 链接 分 错 。 绘 制 ROC 
曲线 并 且 运 行 以 下 代码 来 比较 基本 模型 和 图 模型 : 





plt, fig = create _ roc_plot() 


add_curve(plt, "Common Authors", 
basic_results["fpr"], basic_results["tpr"], 
basic_resuLts["roc_auc"]) 


add_curve(plt, "Graphy " ， 
graphy_results["fpr"], graphy_results["tpr"], 
graphy_results["roc_auc"]) 


plt. legend(loc=' lower right') 
plt.show() 





结果 如 图 8-10 所 示 !。 
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图 8-10: 各 模型 的 ROC 曲线 对 比 图 











总 体 来 说 ， 似 乎 在 朝 着 正确 的 方向 前 进 ， 可 视 化 比较 有 助 于 了 解 不 同 模型 对 结果 的 影响 。 














注 1: 要 查看 图 8-10 及 其 他 ROC 曲线 对 比 图 的 彩色 版 本 ， 请 访问 











图 灵 社 区 : http://ituring.cn/book/2694。 
一 一 编者 注 








现在 有 了 多 个 特征 ， 还 需要 评估 哪些 特征 最 重要 。 可 以 依据 特征 重要 度 (feature importance ) 
来 对 各 种 特征 对 模型 预测 功能 的 影响 进行 排序 。 这 有 助 于 评估 不 同 算法 和 统计 数据 对 结果 
名 影响。 


为 了 计算 特征 重要 度 ，Spark 中 的 随机 森林 算法 对 森林 中 所 有 树 的 杂质 减少 
量 进 行 平 均 化 处 理 。 杂 质 (impurity) 是 随机 分 配 标签 错误 的 频率 。 

特征 排名 是 与 当前 评估 的 特征 分 组 相 比较 ， 通 常 要 归 一 化 。 如 果 将 某 个 特征 
排 在 第 一 位 ， 则 其 特征 重要 度 为 1.0， 因 为 它 对 模型 的 影响 程度 是 100%。 























以 下 函数 创建 图 表 来 展示 最 有 影响 力 的 特征 : 








def plot_ feature_importance(fields, feature_importances): 
df = pd.DataFrame({"Feature": fields, "Importance": feature_importances}) 
df = df.sort_values("Importance", ascending=False) 
ax = df.plot(kind='bar', x='Feature', y='Importance', legend=None) 
ax.xaxis.set_ label text("") 
plt.tight_layout() 
plt.show() 


可 按 如 下 方式 调用 该 函数 : 


rf_model = graphy_model.stages[-1] 
plot_feature_importance(fields, rf_model.featureImportances) 


运行 该 函数 ， 结 果 如 图 8-11 所 示 。 
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8-11: 图 模型 的 特征 重要 度 
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到 目前 为 止 ， 在 用 到 的 3 个 特征 中 ，commonAuthors 最 重要 。 








为 了 理解 如 何 创建 预测 模型 ， 可 以 使 用 spark-tree-plotting 可 视 化 随机 森林 中 的 一 棵 决策 
树 。 以 下 代码 可 生成 一 个 GraphViz 文件 : 
from spark_tree_plotting import export_graphviz 
dot_string = export_graphviz(rf_model.trees[0], 
featureNames=fields, categoryNames=[], classNames=["True", "False"], 


filled=True, roundedCorners=True, roundLeaves=True) 


with open("/tmp/rf.dot", "w") as file: 
file.write(dot_string) 


然后 在 终端 执行 以 下 命令 ， 将 该 文件 可 视 化 : 


dot -Tpdf /tmp/rf.dot -o /tmp/rf.pdf 

















输出 结果 如 图 8-12 所 示 。 
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8-12: 可 视 化 决策 树 
假设 要 使 用 该 决策 树 来 预测 具有 某 些 特征 的 节点 对 是 否 存在 链接 ， 如 下 所 示 : 





CommonAuthors prefAttachment totalNeighbors 





10 12 5 


随机 森林 通过 以 下 儿 个 步骤 进行 预测 。 
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1. 从 节点 0 开始， 由 于 commonAuthors 数 大 于 1.5， 因 此 沿 着 False 分 支 到 达 节 点 2。 

2. 这 里 的 commonAuthors 数 大 于 2.5， 因 此 沿 着 False 分 支 到 达 节 点 6。 

3. prefAttachment 得 分 低 于 15.5， 这 样 就 到 达 节 点 9。 

4. 节点 9 是 该 决策 树 中 的 一 个 叶 节 点 ， 这 意味 着 不 需要 检查 其 他 任何 条 件 一 一 该 节点 的 
Prediction 值 (True) 就 是 决策 树 的 预测 结果 。 

5. 最 后 ， 随 机 森林 针对 整个 决策 树 集合 求解 待 预 测 项 ， 并 基于 最 广泛 接受 的 结果 做 出 预测 。 





























下 面 添加 更 多 图 特征 进行 研究 。 








8.3.8 预测 链接 : 三 角形 和 聚 类 系数 
推荐 解决 方案 通常 基于 某 种 形式 的 三 角形 度量 指标 进行 预测 ， 下 面 看 看 这 些 指标 是 否 对 本 
例 有 更 多 帮助 。 执 行 以 下 查询 来 计算 经 过 节点 的 三 角形 数量 及 其 聚 类 系数 : 














CALL algo.triangleCount('Author', 'CO_AUTHOR_EARLY', { write:true， 
writeproperty:'trianglesTrain', clusteringCoefficientProperty: 
'coefficientTrain'}); 


CALL algo.triangleCount('Author', 'CO_AUTHOR', { write:true, 
writePproperty:'trianglesTest', clusteringCoefficientProperty: 
'coefficientTest'}); 


以 下 函数 把 这 些 特 征 添 加 到 DataFrame 对 象 中 。 


def apply_triangles_ features(data, triangles_prop, coefficient_prop): 
query = """ 
UNWIND S$pairs AS pair 
MATCH (p1) WHERE id(p1) = pair.nodel 
MATCH (p2) WHERE id(p2) = pair.node2 
RETURN pair.nodel AS nodel, 
pair.node2 AS node2， 
apoc.coLL.min([p1[sStriangLesProp]，p2[sStriangLesProp]]) 
AS minTriangles, 
apoc.coLL.max([p1[striangLesProp]，p2[sStriangLesProp]]) 
AS maxTriangles, 
apoc.coLL.min([p1[scoefficientProp]，p2[scoefficientProp]]) 
AS minCoefficient, 
apoc.coll.max([pi[$coefficientProp], p2[$coefficientProp]]) 
AS maxCoefficient 
params = { 
"pairs": [{"node1": row["node1"], "node2": row["node2"]} 
for row in data.collect()], 
"trianglesProp": triangles_prop, 
"coefficientPprop": coefficient prop 
上 
features = spark.createDataFrame(graph.run(query, params).to_data_frame()) 
return data.join(features, ["node1", "node2"]) 
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注意 ， 在 三 角形 计数 和 聚 类 系数 算法 中 使 用 了 前 绥 mn 和 max。 我 们 需要 一 
种 方法 来 防止 模型 基于 从 无 向 图 传递 作者 对 的 顺序 进行 学 习 ， 可 以 用 最 小 计 
数 和 最 大 计数 将 这 些 特 征 按 作者 划分 。 






































以 下 代码 应 用 该 函数 训练 和 测试 DataFrame 对 象 ; 


training_data = apply_triangles_features(training_data, 

"trianglesTrain", "coefficientTrain") 
test_data = apply_triangles_features(test_data, 

"trianglesTest", "coefficientTest") 





云 行 如 下 代码 展示 每 个 三 角形 特征 的 摘 述 性 统计 数据 : 





(training data.filter(training_data["label"]==1) 
.describe() 
.select("summary", "minTriangles", "maxTriangles", 
"minCoefficient", "maxCoefficient") 
.Show()) 


(training_data.filter(training_data["label"]==0) 
.describe() 
.Select("summary", "minTriangles", "maxTriangles", "minCoefficient", 
"maxCoefficient") 
.Show()) 


运行 这 段 代码 ， 结 果 如 下 所 示 : 








summary minTriangles maxTriangles minCoefficient maxCoefficient 
count 81096 81096 81096 81096 

mean 19.478260333431983 27.73590559337082 0.5703773654487051 0.8453786164620439 
stddev 65.7615282768483 74.01896188921927 0.3614610553659958 0.2939681857356519 
min 0 0 0.0 0.0 

max 622 785 14.0 1.0 

summary minTriangles maxTriangles minCoefficient maxCoefficient 
count 81096 81096 81096 81096 

mean 5.754661142349808 35.651980368945445 0.49048921333297446 0.860283935358397 
stddev 20.639236521699 85.82843448272624 0.3684138346533951 0.2578219623967906 
min 0 0 0.0 0.0 

max 617 785 1.0 0. 


请 注意 ， 本 次 比较 中 有 合 著 关系 的 数据 和 无 合 兰 关系 的 数据 差异 不 大 ， 这 可 能 意味 着 这 些 
特征 并 不 具有 预测 性 。 运 行 以 下 代码 来 训练 另 一 个 模型 : 





fields = ["commonAuthors", "prefAttachment", "totalNeighbors", 
"minTriangles", "maxTriangles", "minCoefficient", "maxCoefficient"] 
triangle_model = train model(fields, training_data) 




















求解 模型 并 显示 结果 : 


triangle_results = 


display_results(triangle_results) 


三 角形 模型 的 预测 指标 如 下 所 示 : 





measure score 

accuracy 0.992924 
recall 0.965384 
precision 0.958582 


evaluate model(triangle model, test data) 


将 每 个 新 特征 添加 到 之 前 的 模型 中 ， 预 测 指 标 都 有 较 好 的 增长 。 使 用 以 下 代码 将 三 角形 模 

















型 添加 到 ROC 曲线 图 中 : 











plt, fig = create roc_plot() 


add_curve(plt, "Common Authors", 
basic_results["fpr"], basic results["tpr"], basic results["roc auc"]) 


add_curve(plt, "Graphy", 


graphy_results["fpr"], graphy_results["tpr"], 
graphy_results["roc _auc"]) 


add_curve(plt, "Triangles", 


triangle_results["fpr"], triangle_results["tpr"], 
triangle_results["roc_auc"]) 


plt. legend(loc=' lower right') 


plt.show() 


输出 结果 如 图 8-13 所 示 。 
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8-13: 各 模型 的 ROC 曲线 对 比 图 
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模型 整体 上 得 到 了 改进 ， 预 测 指标 达到 了 0.98。 此 时 情况 变 得 更 加 困难 ， 因 为 最 容易 的 方 
法 已 经 用 过 了 ， 但 是 仍 有 改进 的 空间 。 看 看 特征 重要 度 有 何 变化 : 





rf_model = triangle model.stages[-1] 
plot_feature_importance(fields, rf_model.featureImportances) 





运行 该 函数 ， 结 果 如 图 8-14 所 示 。 共 同 作者 特征 对 模型 的 影响 仍然 最 大 。 也 许 需要 探索 新 
领域 了 ， 看 看 添加 社团 信息 后 会 发 生 什么 。 
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8-14: 三 角形 模型 的 特征 重要 度 


8.3.9 预测 链接 : 社团 发 现 
假设 即使 同一 社团 中 的 节点 之 间 没有 链接 ， 它 们 之 间 存在 链接 的 可 能 性 也 更 大 。 此 外 ,我 
们 认为 社团 越 紧密 ， 存 在 链接 的 可 能 性 越 大 。 














首先 ， 使 用 Neo4j 中 的 标签 传播 算法 计算 更 粗 粒度 的 社团 。 执 行 以 下 查询 可 实现 这 一 操 
作 。 对 于 训练 集 ， 该 查询 将 把 社团 存储 在 partittonTrain 性 质 中 ， 对 于 测试 集 ， 则 存储 在 
partitionTest 性 质 中 : 








CALL algo.labelPropagation("Author", "CO_AUTHOR_EARLY", "BOTH", 
{partitionproperty: "partitionTrain"}); 


CALL algo.labelPropagation("Author", "CO_AUTHOR", "BOTH", 
{partitionproperty: "partitionTest"}); 





我 们 使 用 Louvain 模块 度 算法 计算 细 粒 度 群 组 。Louvain 模块 度 算法 将 返回 中 间 复 ， 对 于 
训练 集 ， 我 们 将 最 小 的 复 存 储 在 LouvainTrain 性 质 中 ;对 于 测试 集 ， 则 将 最 小 的 簇 存 储 在 
TlouvainTest 性 质 中 : 








CALL algo.louvain.stream("Author", "CO_AUTHOR_EARLY", 
{includeIntermediateCommunities:true}) 

YIELD nodelId, community, communities 

WITH algo.getNodeById(nodeId) AS node, communities[0] AS smallestCommunity 

SET node.louvainTrain = smallestCommunity; 


CALL algo.louvain.stream("Author", "CO_AUTHOR", 
{includeIntermediateCommunities:true}) 

YIELD nodelId, community, communities 

WITH algo.getNodeById(nodeId) AS node, communities[0] AS smallestCommunity 

SET node.LouvainTest = smallestCommunity; 


然后 创建 以 下 函数 ， 返 回 这 些 算法 的 计算 结果 : 





def apply_community_features(data, partition prop, louvain_prop): 
query = """ 
UNWIND S$pairs AS pair 
MATCH (p1) WHERE id(p1) = pair.nodel 
MATCH (p2) WHERE id(p2) = pair.node2 
RETURN pair.nodel AS nodel, 
pair.node2 AS node2, 
CASE WHEN pi[S$partitionPprop] = p2[$partitionprop] THEN 
1 ELSE 0 END AS samePartition， 
CASE WHEN pi[$louvainprop] = p2[S$LouvainProp] THEN 
1 ELSE 0 END AS sameLouvain 
params = { 
"pairs": [{"node1": row["node1"], "node2": row["node2"]} for 
row in data.collect()], 
"partitionprop": partition_prop, 
"LouvainProp": louvain_prop 
} 
features = spark.createDataFrame(graph.run(query, params).to_data_frame()) 
return data.join(features, ["node1", "node2"]) 


以 下 代码 将 该 函数 应 用 于 训练 和 测试 DataFrame 对 象 : 
training_data = apply_community _ features(training_data, 


"partitionTrain", "LouvainTrain") 
test_data = apply_community features(test_ data, "partitionTest", "louvainTest") 








运行 如 下 代码 判断 节点 对 是 否 属于 同一 分 制 |: 


= 





plt.style.use('fivethirtyeight') 
fig, axs = plt.subplots(1, 2, figsize=(18, 7), sharey=True) 
charts = [(1, "have collaborated"), (0, "haven't collaborated")] 


for index, chart in enumerate(charts): 
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label, title = chart 
filtered = training data.filter(training data["label"] == label) 
values = (filtered.withColumn('samePartition', 
F.when(F.col("samepartition") == 0, "False") 
.otherwise("True")) 
.groupby("samePartition") 
.agg(F.count("label").alias("count")) 
.Select("samepartition", "count") 
.toPandas()) 
values.set_index("samePartition", drop=True, inplace=True) 
values.plot(kind="bar", ax=axs[index], legend=None, 
title=f"Authors who {title} (label={label})") 
axs[index].xaxis.set label_ text("Same Partition") 


plt.tight_layout() 
plt.show() 


运行 以 上 代码 ， 结 果 如 图 8-15 所 示 。 
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8-15: 同一 分 割 


看 起 来 该 特征 的 预测 性 很 好 一 一 合作 过 的 作者 比 未 合作 过 的 作者 更 有 可 能 处 于 同一 分 割 
中 。 运 行 以 下 代码 对 Louvain 复 执 行 相同 的 操作 : 


plt.style.use('fivethirtyeight') 
fig, axs = plt.subplots(1, 2, figsize=(18, 7), sharey=True) 
charts = [(1, "have collaborated"), (0, "haven't collaborated")] 


for index, chart in enumerate(charts): 

label, title = chart 

filtered = training data.filter(training data["label"] == label) 

values = (filtered.withColumn('sameLouvain', 
F.when(F.col("sameLouvain") == 0, "False") 

.otherwise("True")) 

.groupby("sameLouvain") 
.agg(F.count("label").alias("count")) 
.Select("sameLouvain", "count") 
.toPandas()) 
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values.set_index("sameLouvain", drop=True, inplace=True) 

values.plot(kind="bar", ax=axs[index], legend=None, 
title=f"Authors who {title} (label={label})") 

axs[index].xaxis.set_ label_ text("Same Louvain") 


plt.tight_layout() 
plt.show() 


结果 如 图 8-16 所 示 。 





Authors who have collaborated (label=1) Authors who haven't collaborated (label=0) 
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False 











8-16: 同一 Louvain 簇 
看 起 来 该 特征 的 预测 性 很 好 一 一 有 合作 关系 的 作者 很 可 能 在 同一 禾 中 ， 而 设 有 合作 关系 的 
作者 不 太 可 能 在 同一 徐 中 。 
运行 以 下 代码 来 训练 另 一 个 模型 : 
fields = ["commonAuthors", "prefAttachment", "totalNeighbors", 
"minTriangles", "maxTriangles", "minCoefficient", "maxCoefficient", 


"samePartition", "sameLouvain"] 
community_ model = train model(fields, training_data) 


然后 求解 模型 并 且 展 示 结 果 : 


community_results = evaluate model(community model, test_data) 
display_results(community_results) 


社团 模型 的 预测 指标 如 下 所 示 : 


measure score 





accuracy 808.995771 
recall 0.957088 
precision 0.978674 
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有 些 指标 得 到 了 改进 。 为 了 便于 比较 ， 可 以 运行 以 下 代码 绘制 所 有 模型 的 ROC 曲线 : 


plt, fig = create_roc_plot() 


add_curve(plt, "Common Authors", 
basic_results["fpr"], basic_ results["tpr"], basic_results["roc_auc"]) 


add_curve(plt, "Graphy", 
graphy_results["fpr"], graphy_results["tpr"], 
graphy_results["roc_auc"]) 


add_curve(plt, "Triangles", 
triangle_results["fpr"], triangle_results["tpr"], 
triangle_results["roc_auc"]) 


add_curve(plt, "Community", 
community_results["fpr"], community_results["tpr"], 
community_results["roc_auc"]) 


plt. legend(loc=' lower right') 
plt.show() 

















输出 结果 如 图 8-17 所 示 。 
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8-17: 各 模型 的 ROC 曲线 对 比 图 








图 8-17 显示 ， 添 加 社团 模型 后 ， 指 标 有 所 改进 。 下 面 看 看 各 个 特征 的 重要 度 : 




















rf_model = community_modeL.stages[-1] 
plot_feature_importance(fields, rf_model.featureImportances) 
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运行 该 函数 可 以 得 到 图 8-18 所 示 的 结果 。 
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图 8-18; 社团 模型 的 特征 重要 度 

虽然 共同 作者 模型 总 体 而 言 非常 重要 ， 但 最 好 避免 使 用 过 于 主导 性 的 元 素 ， 以 免 扭 曲 对 新 
数据 的 预测 结果 。 社 团 发 现 算法 在 最 后 一 个 含有 全 部 特征 的 模型 中 影响 很 大 ， 这 有 助 于 完 
善 预 测 方法 。 

示例 表明 ， 基 于 图 的 简单 特征 是 良好 开端 ， 随 着 添加 更 多 图 特征 和 基于 图 算法 的 特征 ， 预 
测 指标 持续 改进 。 对 于 预测 合 著 关 系 而 言 ， 现 在 有 了 一 个 优良 且 均 衡 的 模型 。 















































使 用 图 进行 关联 特征 提取 可 以 显著 地 改善 预测 效果 。 图 特征 和 图 算法 是 否 理想 ， 这 在 很 大 
程度 上 取决 于 数据 的 属性 ， 包 括 网 络 域 属性 和 图 的 形状 属性 。 建 议 在 对 性 能 调 优 之 前 ， 首 
先 探 查 数据 中 的 预测 性 元 素 ， 并 且 使 用 不 同 的 关联 特征 来 验证 假设 。 














练 习 

还 有 一 些 领 域 有 待 研究 ， 还 有 构建 其 他 模型 的 方法 值得 思考 。 下 面 这 些 想法 值得 进 一 
步 探索 。 

我 们 的 模型 对 其 他 尚未 用 到 的 会 议 数据 来 说 预测 效果 如 何 ? 

当 测 试 新 数据 时 ， 去 除 一 些 特征 会 发 生 什么 ? 

如 果 在 划分 训练 数据 和 测试 数据 时 选取 不 同年 份 ， 是 否 会 影响 预测 结果 ? 

该 数据 集 还 包含 论文 之 间 的 引用 。 是 否 可 以 使 用 该 数据 集 生成 不 同 的 特征 或 预测 未 

来 的 引用 ? 
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8.4 ”小结 
本 章 研 究 了 如 何 使 用 图 特征 和 图 算法 来 增强 机 器 学 习 。 首 先 介绍 了 一 些 基础 概念 ， 然 后 给 
出 了 综合 使 用 Neo4j 和 Spark 进行 链接 预测 的 详细 示例 ， 还 演示 了 如 何 评估 随机 森林 分 类 
器 模型 ， 以 及 如 何 整合 各 种 相关 特征 来 改进 预测 结果 。 




















8.5 总结 


本 书 首先 介绍 了 图 的 概念 、 处 理 平台 和 分 析 方 法 ， 然 后 介绍 了 许多 关于 如 何在 Spark 和 
Neo4j 中 使 用 图 算法 的 示例 ， 最 后 探讨 了 如 何 用 图 来 增强 机 器 学 习 。 














在 现实 世界 中 ， 图 算法 是 分 析 各 类 系统 背后 的 动力 之 源 一 一 它 可 用 于 防 欺 诈 、 优 化 呼叫 路 
由 、 预 测 流 感 传播 等 多 种 场合 。 希 望 你 能 加 入 其 中 ， 动 手 设计 独特 的 解决 方案 ， 充 分 利用 
如 今 这 些 高 度 关联 的 数据 。 











附录 


额外 信息 及 资料 





本 附录 简单 介绍 一 些 有 帮助 的 信息 : 其 他 算法 、 把 数据 导入 Neo4j 的 另 一 种 方法 和 另 一 个 
程序 库 ， 并 提供 一 些 关 于 查找 数据 集 、 平 台 帮 助 信息 和 培训 等 方面 的 资源 。 


其 他 算法 


许多 算法 可 用 于 图 数据 。 本 书 重点 介绍 了 经 典 图 算法 中 最 具 代 表 性 的 算法 ， 以 及 应 用 程序 
开发 人 员 常 用 的 算法 。 本 书 省 略 了 像 着 色 算法 和 启发 式 算法 这 样 的 算法 ， 这 是 因为 它们 要 
么 在 学 术 案 例 中 更 受 关 注 ， 要 么 易于 推导 。 

如 基于 边 的 社团 发 现 算法 等 其 他 算法 也 都 很 有 意思 ， 但 是 还 未 在 Neo4j 或 Spark 中 实现 。 
希望 随 着 图 分 析 应 用 的 发 展 ， 这 两 种 平台 支持 的 图 算法 会 不 断 增加 。 

还 有 一 些 算 法 虽然 可 用 于 图 ， 但 本 质 上 并 不 是 严格 意义 上 的 图 算法 ， 例 如 第 8 章 介绍 的 一 
些 在 机 器 学 习 任 务 中 使 用 的 算法 。 另 一 个 值得 关注 的 领域 是 相似 度 算法 ， 它 常用 于 推荐 和 
链接 预测 。 相 似 度 算法 使 用 多 种 方法 对 市 点 属性 等 进行 比较 ， 可 以 计算 出 哪些 市 点 彼此 最 
为 相似 。 


Neo4j 批 量 数据 导入 和 Yelp 


使 用 Cypher 查询 语言 将 数据 导入 Neo4j 的 过 程 采用 了 事务 处 理 方式 。 图 A-1 粗略 地 展示 
了 这 一 过 程 。 
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原始 数据 





事务 处 理 记录 


一 


存储 文件 








A-1: 基于 Cypher 的 导入 


这 种 方法 适用 于 增 量 数据 加 载 且 支 持 多 达 1000 万 条 记录 的 批量 加 载 。 在 导入 初始 批量 数 
据 集 时 ，Neo4j 导入 工具 是 较 好 的 选择 。 该 工具 直接 创建 存储 文件 ， 可 跳 过 事务 处 理 记录 ， 








如 图 A-2 所 示 。 
原始 数据 事务 处 理 记录 存储 文件 
BB -一 -一 
Bg BH 
一 各 画 回 忆 画 豆 同 男 忌 一 秒 
Ed Ee El 











A-2: 使 用 Neo4j 导入 工具 


Neo4j 导入 工具 可 处 理 CSV 文件 ， 并 且 要 求 这 些 文件 具有 特定 标 头 。 图 A-3 给 出 了 该 工具 


可 以 处 理 的 CSV 文件 示例 。 








id:ID(User) | EL 
1234 Bob 678 
节点 
了 35 Alice 679 
1236 Erika 686 
:START_ID(User) :END_ID(Review) 
1234 678 
关系 
1235 679 
1236 686 





id:ID(Review) | text 


Ww 


Awesome 
Mediocre 2 


Really bad 1 








A-3: Neo4j 导入 处 理 的 CSV 文件 格式 


Yelp 数据 集 的 规模 意味 着 采用 Neo4j 导入 工具 是 最 佳 选 择 。 访 数据 是 JSON 格式 的 ， 因 
先 需要 将 其 转换 为 Neo4 导入 工具 所 需 的 格式 。 图 A-4 展示 了 需要 进行 转换 的 JSON 示 














此 首 





RE 


o 
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code": "15213", 


"stal 
"postal_ 
"latitude": 46.4414214， 


"longitude": -79.9564571, 
"stars": 3.5, 
"review count": 3, 


s_ol 入 
attributes": { 
"Bikeparking": "True"， 
"Busin ceptsCreditCards": “True"， 
rking": "{'garage’: False, 
alse, ‘valet': False}", 


e, ‘validated": 


Python 脚本 


‘street': Falsi 






"Friday": "9:8-17:0", 
"Saturday": "16:9-17:9" 











A-4: 将 JSON 转换 为 CSV 


使 用 Python 可 以 创建 简单 脚本 ， 将 数据 转换 为 CSV 文件 ， 然 后 将 其 导入 Neo4j 中 。 关 于 


该 操作 的 详细 说 明 ， 参 见 Neo4j 官网 。 


APOC 和 其 他 Neo4j 工 具 


APOC (Awesome Procedures on Cypher) 包含 数 百 个 程序 和 国 数 ， 用 于 覃 





























Neo4j 还 提供 了 其 他 一 些 可 与 其 图 算法 库 一 起 使 用 的 工具 ， 比 如 支持 无 
“游乐 场 ”应 用 程序 。 这 些 都 可 以 在 其 图 算法 开发 网 站 上 找到 。 


查找 数据 集 
查找 符合 测试 目标 或 假设 的 图 数据 集 富有 挑战 


数据 集 的 索引 。 














E。 除 了 阅读 而 








自 





ICON ( Index of Complex Networks) 是 一 个 可 搜索 的 索引 ， 包 含 来 
域 的 高 质量 网 络 数据 集 。 

KONECT (Koblenz Network Collection) 包含 用 于 网 络 科 学 研究 的 多 
据 集 。 


大 部 分 数据 集 需 要 经 过 一 定 的 处 理 才 能 转换 为 更 易 用 的 格式 。 


完 论 文 ， 还 


助 完成 集成 、 清 


理 、 转 换 数据 等 常见 任务 并 提供 常规 辅助 函数 。APOC 是 面向 Neo4j 的 标准 库 。 


代码 开发 的 算法 


:要 考虑 探查 网 络 





SNAP (Stanford Network Analysis Project) 包含 几 个 数据 集 以 及 相关 论文 和 使 用 指南 。 


网 络 科 学 多 个 领 


种 大 规模 网 络 数 
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Spark 和 Neo4j 平 台 帮 助 信息 


可 以 分 别 访问 以 下 社区 。 

















Spark 和 Neo4j 有 很 多 在 线 资 源 。 针 对 具体 问题 ， 





























。 对 于 Spark 常见 问题 ， 可 订阅 Spark 社区 网 页 上 的 users@spark.apache.org。 
。 对 于 GraphFrames 相关 问题 ， 可 使 用 GitHub 问题 追踪 器 。 
。 所 有 关于 Neo4j 的 问题 (包括 图 算法 问题 )， 都 可 访问 Neo4 在 线 社区 。 








培训 资源 
还 有 许多 优质 资源 有 助 于 学 习 图 分 析 。 搜 索 关 于 
者; 








I 








。 Coursera 上 的 Python 实用 社交 网 络 分 析 课 程 ; 


。 Leonid Zhukov 的 社交 网 络 分 析 YouTube 系列 课程 ， 








攻 











算法 、 网 络 科 学 和 网 络 分 析 的 课程 或 


可 以 找到 许多 资源 。 以 下 列举 比较 好 的 在 线 学 习 资源 : 





。 斯 坦 福 大 学 的 网 络 分 析 课 程 ， 包 括 视 频 讲 座 、 阅 读 清 单 和 其 他 资源 ; 
。 Complexity Explorer 提供 的 复杂 性 科学 在 线 课程 。 

















[对 
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关于 作者 


马克 * 尼 达 姆 (Mark Needham) 是 图 的 倡导 者 和 开发 者 关系 工程 师 。 他 致力 于 帮助 用 户 
运用 图 和 Neo4j， 善 于 针对 富有 挑战 性 的 数据 问题 构建 复杂 的 解决 方案 。 马 克 在 图 数据 
方面 拥有 丰富 的 专业 知识 ， 此 前 协助 构建 了 Neo4j 的 因果 聚 类 系统 。 他 通过 广 受 欢迎 的 
个 人 博客 记录 自己 从 事 图 相关 研究 的 经 历 。 他 的 Twitter 账号 是 @markhneedham 。 





埃 米 *E. 霍 德 勒 (Amy E. Hodler) 是 Neo4j 的 人 工 智能 和 图 分 析 项 目 经 理 。 她 热爱 网 络 科 
学 ， 提 倡 使 用 图 分 析 来 揭示 现实 网 络 的 结构 并 预测 动态 行为 。 团队 运用 新 方法 为 
EDS、 和 微软、 惠普 、 上 日 立 和 Cray Inc. 等 公司 创造 新 的 商机 。 埃 米 热爱 科学 和 艺术 ， 对 复杂 
性 研究 和 图 论 有 着 浓厚 的 兴趣 。 她 的 Twitter 账号 是 @amyhodler。 


天 于 封面 
本 书 封面 上 的 动物 是 欧洲 花园 歇 蛛 (也 称 十 字 园 蛛 )， 见于 欧洲 和 北美 洲 ， 当 年 随 欧 洲 
移民 登陆 北美 洲 。 


欧洲 花园 蜂 蛛 体 长 不 到 3 厘米 ， 体 色 为 斑驳 的 棕色 ， 带 有 苍白 斑纹 ， 背 部 的 几 处 班 纹 形 同 
一 个 小 十 字 架 ， 故 得 名 十 字 园 蛛 。 这 些 蜂 蛛 在 当地 很 常见 ， 多 在 夏 末 出 现 ， 因 为 此 时 它们 
发 育成 熟 并 开始 结 网 


欧洲 花园 稀 蛛 属 金 蛛 科 ， 它 们 会 结 一 张 圆 形 的 网 来 捕捉 小 昆虫 等 猎物 。 为 了 保证 捕食 效 
认 ， 它 们 通常 在 晚上 使 用 和 修补 蛛网 。 这 种 蜂 蛛 通常 保持 隐蔽 ,一 条 腿 停 在 与 网 相连 的 
“信号 线 ” 上 ， 这 条 “信号 线 ” 的 颤动 会 提醒 歇 蛛 有 猎物 上 门 ， 然 后 听 蛛 迅速 行动 ， 咏 住 
猎物 并 将 其 杀 死 ， 之 后 注入 特殊 的 酶 以 供 享 用 。 当 它们 的 网 受到 捕食 者 破坏 或 无 意 间 干扰 
时 ， 欧 洲 花 园 蜂 蛛 会 用 腿 晃 动 蛛 网 ， 然 后 通过 一 根 蛛 丝 落 到 地 上 。 待 危险 过 去 后 ， 蜂 蛛 会 
用 蛛 丝 重新 结 网 。 

这 种 稀 蛛 的 寿命 只 有 一 年 ， 春季 鲍 化 ， 夏 季 成 熟 ， 年 末 交 配 。 0 


这 是 因为 有 时 峻 蛛 会 杀 死 并 吃 掉 雄 蛛 。 交 配 之 后 ， 肉 蛛 会 为 自己 的 卵 织 一 个 厚 厚 的 茧 ， 名 
后 在 秋天 死去 。 





由 于 它们 很 常见 ， 可 以 很 好 地 适应 已 被 人 类 干扰 的 栖息 地 ， 因 此 人 们 对 它们 进行 了 深入 研 
完 。1973 年 ， 名 为 Arabella 和 Anita 的 两 只 肉 性 蜘蛛 参加 了 美国 国家 航空 航天 局 在 太空 实 
验 轨 道 飞行 器 上 的 实验 ， 实 验 目 的 是 测试 索 重 力 对 蛛网 结构 的 影响 。 花 了 一 段 时 间 送 应 失 
重 环境 后 ，Arabella 先 结 了 一 部 分 网 ， 而 后 给 成 了 一 张 完整 的 因 形 网 。 

O’Reilly 图 书 封面 上 的 许多 动物 濒临 灭绝 ， 它 们 是 自然 界 所 剩 无 几 的 瑰宝 。 


封面 图 片 是 Karen Montgomery 提供 的 彩色 播 图 ， 基 于 Meyers Kleines Lexicon 上 的 一 幅 黑 
和 白 版 画 创 作 。 
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回复 “算法 ”查看 相关 书 单 


G 
微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


里 


QQ 连接 
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数据 分 析 之 图 算法 : 基于 Spark 和 Neo4j 


莎士比亚 曾 说 ， ee 今天 看 来 ， 世 界 是 一 张大 




















图 ! 将 人 物 和 事件 视 作 节 点 ， 将 节点 之 间 的 关系 连 成 线 ， 我 们 就 “从 基本 概念 到 基础 算法 , 再 到 
能 将 着 综 复杂 的 关系 We 图 ， 通过 图 分 析 洞 悉 复 杂 问 题 的 处 理 平 台 和 实用 案例 ， 作者 为 
本 质 。 a se 营销 归 Rd 欺 精彩 的 图 算法 世界 编写 了 一 本 
ee et -名 全 用 到 轩 外 法 。 
一 一 Kirk Borne 博 士 

学 习 图 算法 有 助 于 利用 数据 间 的 关系 研究 智能 解决 方案 ， 并 构建 博思 艾 伦 咨询 公司 
增强 机 器 学 习 模 型 。 本 书 作 者 来 自 Neo4j 公 司 ， 在 图 分 析 领 域 深 首席 数据 科学 家 兼 执行 顾问 
耕 多 年 。 你 将 跟随 他 们 领略 美妙 的 图 算法 世界 ， 并 利用 流行 平台 
Spark 和 Neo4j 实 现 常用 的 图 算法 。 这 本 实用 指南 介绍 了 如 何 使 用 

图 算法 检测 模式 和 结构 , 从 而 
。 了 解 如 何 利用 图 分 析 揭 示 数 据 的 预测 性 特征 洞察 存在 连接 关系 的 数据 . 我 
。 了 解 如 何 实现 近 20 种 流行 的 图 算法 强烈 推荐 图 数据 库 开 发 人 员 阅 
。 了 解 各 种 图 算法 的 适用 场景 Ey 
” 跟随 示例 在 Spark 和 Neo4j 中 应 用 图 算法 es 
。 结合 Spark 和 Neo4j 创 建 机 器 学 习 工作 流程 Se 
马克 * 尼 达 姆 (Mark Needham)，Neo4j 公 司 开发 者 关系 工程 师 ，Neo4j 认 
证 专家 ， 曾 深度 参与 Neo4j 因 果 集 群 的 开发 工作 。 马 克 致 力 于 帮助 客户 
运用 图 数据 库 ， 善 于 针对 富有 挑战 性 的 数据 问题 构建 综合 的 解决 方案 。 
埃 米 .E. 霍 德 勒 (Amy E. Hodler) ，Neo4j 公 司 图 分 析 与 人 工 智 能 项 目 总 
监 ， 热 爱 网 络 科 学 ， 在 图 分 析 项 目的 开发 和 运营 方面 有 着 丰富 的 经 验 ， 
普 成 功 带领 团队 为 EDS、 微软 、 惠 普 等 公司 创造 新 的 商机 。 
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